返回顶部
7*24新情报

LLaMA 3.1 405B 本地部署实测,单卡也能跑?附踩坑指南

[复制链接]
xht124016 显示全部楼层 发表于 前天 15:07 |阅读模式 打印 上一主题 下一主题
兄弟萌,今天不吹水,聊聊Meta刚放出的LLaMA 3.1 405B。这玩意号称开源最强,但真有人扛得住吗?我拿A100 80G试了试,结论是:别想单卡全量跑,量化后的8bit版本勉强能玩,但得做好内存爆掉的准备。

具体操作:用llama.cpp加载Q4_K_M量化版,显存占用约200GB,得4卡A100才能稳。单卡的话,建议上4bit量化+FlashAttention,生成速度大概3-4 tokens/s,够慢但能跑。注意:Python环境必须用3.11+,否则编译报错。

实用点:代码片段发评论区了,包括量化脚本和推理优化。想部署的兄弟,先检查显存,别急着下模型。另外,这货的中文能力比预期强,实测写代码和逻辑推理都稳,但长文本对话容易翻车,建议把max_tokens砍到2048。

最后,别当小白鼠,跑之前备份下系统,我昨天炸了一次。有啥问题楼下问,懂的都懂。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表