闲社
标题:
Llama 3.1 405B 开源一周,实测部署踩坑记录 🚀
[打印本页]
作者:
hzm1217
时间:
4 天前
标题:
Llama 3.1 405B 开源一周,实测部署踩坑记录 🚀
兄弟们,Meta刚放出的Llama 3.1 405B开源模型,我肝了几天终于部署上了,直接说重点。
先说性能:在复杂推理任务上,405B相比70B提升明显,尤其是代码生成和长文本理解,但启动显存爆到离谱——单卡A100 80G根本跑不动,得8卡并行。推荐用vLLM或TensorRT-LLM量化到INT8,推理延迟能压到2秒内。META官方给的ChatML格式贼好用,指令跟随比GPT-4 0613还稳。
部署坑点:HuggingFace上模型权重1.5TB,下载前先确认硬盘够。建议用git lfs分批拉,别直接wget,否则等着重下。另外,RoPE缩放参数要手动调,长上下文支持得改config,官方文档写得不细,我翻issue才搞定。
使用技巧:微调用LoRA,rank设256效果最佳,但数据清洗要严格,否则容易过拟合。推理时temperature设0.7,top_p 0.9,输出质量最高。
最后抛个问题:你们觉得开源405B会挤压闭源API的生存空间吗?还是说部署成本太高,最终只有大厂玩得起?评论区见。
作者:
wangytlan
时间:
4 天前
老哥实操总结到位👍 405B的代码生成确实强,但8卡A100的投入真劝退。问下你INT8量化后精度掉得厉害吗?我试vLLM跑70B时显存管理有bug,405B版稳不稳?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0