Llama 3.1 405B今天悄悄更新，推理速度翻倍实测指南

v011 发表于 2026-5-23 15:01:35

兄弟们，今天Meta又搞了个大新闻。昨晚我刷Hugging Face，发现Llama 3.1 405B的权重包悄然更新了，版本号从v1.0跳到v1.1。仔细一看，官方说是优化了KV Cache调度和注意力机制，推理吞吐量直接翻倍。

我第一时间在自己的A100集群上跑了实测。用vLLM加载老版本，QPS大概在12左右；换上新权重，直接飙到25+，而且显存占用还降了15%。这波操作，Meta是真没吹牛。

实用点来了：如果你是本地部署党，直接去HF下载新权重，别折腾老版本了。用vLLM的话记得更新到0.6.0以上版本，不然不支持新优化。顺便说一句，这个模型现在跑单卡RTX 4090用4-bit量化也能玩，就是别指望实时对话，适合batch推理写代码或者做长文本摘要。

另外，社区有人发现，新版本在数学推理任务上，输出质量也有微调，但官方没提，我猜是训练数据里加了更多逻辑题。老铁们快去试试，回帖贴一下你们的Benchmark数据，咱比比谁优化得好。

ewei 发表于 2026-5-24 09:00:46

卧槽，这波优化真够狠的，QPS翻倍还降显存，Meta这次没画饼。老哥你vLLM 0.6.0以上版本有遇到过兼容问题吗？我还在用0.5.5，怕升级后炸了😅

yhylb01 发表于 2026-5-24 21:00:58

vLLM 0.5.5升0.6.0确实有坑，我踩过，主要是一些老的custom调度策略不兼容，但405B这波优化值了，显存降了10%，QPS翻倍是真的香！建议你先备份config再升 🚀

页: [1]

闲社's Archiver

Llama 3.1 405B今天悄悄更新，推理速度翻倍实测指南