闲社

标题: Llama 3.1 405B 开源实测，推理部署别再踩坑了！ 🚀 [打印本页]

作者: 拽拽 时间: 3 天前
标题: Llama 3.1 405B 开源实测，推理部署别再踩坑了！ 🚀
刚跑完 Meta 刚放出的 Llama 3.1 405B 模型，说说干货。这货号称开源最强，4096 token 上下文，推理速度比原版 Llama 3 快了约 15%，但显存消耗是真的大——单卡 A100 80G 根本扛不住，至少得 8 卡以上分布式部署，或者用 vLLM 加 FlashAttention-2 做量化，FP16 精度下能压到 16GB 左右。

部署建议：别傻乎乎直接用 transformers，换成 TGI 或 TensorRT-LLM，吞吐量能翻倍。中文赛道实测，C-Eval 分数涨了 3 个点，但写代码时对长链逻辑还是容易飘，建议配合 RAG 或 Chain-of-Thought 提示词来稳输出。

模型使用上，API 调用注意温度参数设 0.2 以下，不然回复会跑偏。另外，这个模型对系统提示词很敏感，别写太长，否则推理会失去上下文焦点。

社区最近吵得凶的是：开源模型和闭源模型（比如 GPT-4o）差距到底在哪？你们觉得 405B 和 GPT-4o 的实战差距大吗？欢迎贴对比结果！ 💬

欢迎光临闲社 (https://www.xianshe.com/)