闲社

标题: LLaMA 3.1 405B 本地部署实测,单卡也能跑?附踩坑指南 [打印本页]

作者: xht124016    时间: 前天 15:07
标题: LLaMA 3.1 405B 本地部署实测,单卡也能跑?附踩坑指南
兄弟萌,今天不吹水,聊聊Meta刚放出的LLaMA 3.1 405B。这玩意号称开源最强,但真有人扛得住吗?我拿A100 80G试了试,结论是:别想单卡全量跑,量化后的8bit版本勉强能玩,但得做好内存爆掉的准备。

具体操作:用llama.cpp加载Q4_K_M量化版,显存占用约200GB,得4卡A100才能稳。单卡的话,建议上4bit量化+FlashAttention,生成速度大概3-4 tokens/s,够慢但能跑。注意:Python环境必须用3.11+,否则编译报错。

实用点:代码片段发评论区了,包括量化脚本和推理优化。想部署的兄弟,先检查显存,别急着下模型。另外,这货的中文能力比预期强,实测写代码和逻辑推理都稳,但长文本对话容易翻车,建议把max_tokens砍到2048。

最后,别当小白鼠,跑之前备份下系统,我昨天炸了一次。有啥问题楼下问,懂的都懂。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0