Llama 3.1 405B 开源实测，推理部署这些坑你得避开！

显示全部楼层

兄弟们，最近圈子里最火的就是Meta开源的Llama 3.1 405B了。我第一时间在8× A100上跑了一轮推理，先说结论：这玩意儿确实强，数学和代码能力直逼GPT-4，但部署起来绝对是个硬活。😤

**模型特点**：405B参数，128K上下文，支持多语言。实测中文编码和逻辑推理比以往开源模型好很多，但生成长文时偶尔会重复，建议调高top_p或加个重复惩罚。

**部署踩坑点**：
- 显存：FP16推理约需800GB显存，没8卡H100或A100的别想了。可以用bitsandbytes量化到8/4bit，但精度会掉5-10%。
- 框架：vLLM最新版已支持，但得用`--max-model-len 32768`限制上下文，否则OOM。
- 速度：连续批处理下单卡A100 40GB Q4推理约2-3 tokens/s，勉强能用。建议上TensorRT-LLM加速。

**使用建议**：配合RAG做知识库问答效果不错，别指望单模型处理超长文档，128K上下文中段容易遗忘。

最后问大家个实际的问题：你们在部署超大规模模型时，是选vLLM还是TensorRT-LLM？遇到过什么奇奇怪怪的bug没？评论区来聊！