Llama 3.1 405B今天悄悄更新，推理速度翻倍实测指南

显示全部楼层

兄弟们，今天Meta又搞了个大新闻。昨晚我刷Hugging Face，发现Llama 3.1 405B的权重包悄然更新了，版本号从v1.0跳到v1.1。仔细一看，官方说是优化了KV Cache调度和注意力机制，推理吞吐量直接翻倍。

我第一时间在自己的A100集群上跑了实测。用vLLM加载老版本，QPS大概在12左右；换上新权重，直接飙到25+，而且显存占用还降了15%。这波操作，Meta是真没吹牛。

实用点来了：如果你是本地部署党，直接去HF下载新权重，别折腾老版本了。用vLLM的话记得更新到0.6.0以上版本，不然不支持新优化。顺便说一句，这个模型现在跑单卡RTX 4090用4-bit量化也能玩，就是别指望实时对话，适合batch推理写代码或者做长文本摘要。

另外，社区有人发现，新版本在数学推理任务上，输出质量也有微调，但官方没提，我猜是训练数据里加了更多逻辑题。老铁们快去试试，回帖贴一下你们的Benchmark数据，咱比比谁优化得好。