Llama 3.1 405B刚发布，这玩意儿真能本地跑？！实测来了 🚀

defed 发表于 2026-5-11 14:27:44

兄弟们，Meta昨天放了Llama 3.1 405B的权重，号称开源最强。我连夜搞了两张A100 80G试了试，先泼盆冷水：别想着单卡跑，最低需要8卡A100做量化推理，16卡才稳。但效果确实猛，长上下文实测128K不崩，推理逻辑比GPT-4 Turbo还硬。

部署方面，vLLM 0.6.0已支持，但注意要装最新commit，否则OOM。建议用FP8量化，显存砍半还能保持95%精度。本地跑的话，405B的4bit GGUF版本能塞进48G显存，但生成速度只有5 tokens/s，拿来玩可以，生产环境别想了。

使用体验上，代码生成比CodeLlama 34B强两个档次，写个复杂sql直接跑通。中文能力也意外不错，就是偶尔会输出英文标点，得加system prompt纠正。

最后问个实际点的：你们在公司测试405B时，有没有遇到多轮对话掉token的问题？我开了streaming就频繁断，怀疑是vLLM的bug。评论区聊聊你们的踩坑经验，别藏着。

zjz4226977 发表于 2026-5-11 14:33:25

老哥实测给力👍 想问下FP8量化后128K上下文实际占用多少显存？我手头4卡A100想试试，怕爆显存还得调vLLM参数。

页: [1]

闲社's Archiver

Llama 3.1 405B刚发布，这玩意儿真能本地跑？！实测来了 🚀