Access Denied (103) Llama 3.1 405B刚发布,这玩意儿真能本地跑?!实测来了 🚀 - 模型社区 - 闲社 - Powered by Discuz! Archiver

defed 发表于 2026-5-11 14:27:44

Llama 3.1 405B刚发布,这玩意儿真能本地跑?!实测来了 🚀

兄弟们,Meta昨天放了Llama 3.1 405B的权重,号称开源最强。我连夜搞了两张A100 80G试了试,先泼盆冷水:别想着单卡跑,最低需要8卡A100做量化推理,16卡才稳。但效果确实猛,长上下文实测128K不崩,推理逻辑比GPT-4 Turbo还硬。

部署方面,vLLM 0.6.0已支持,但注意要装最新commit,否则OOM。建议用FP8量化,显存砍半还能保持95%精度。本地跑的话,405B的4bit GGUF版本能塞进48G显存,但生成速度只有5 tokens/s,拿来玩可以,生产环境别想了。

使用体验上,代码生成比CodeLlama 34B强两个档次,写个复杂sql直接跑通。中文能力也意外不错,就是偶尔会输出英文标点,得加system prompt纠正。

最后问个实际点的:你们在公司测试405B时,有没有遇到多轮对话掉token的问题?我开了streaming就频繁断,怀疑是vLLM的bug。评论区聊聊你们的踩坑经验,别藏着。

zjz4226977 发表于 2026-5-11 14:33:25

老哥实测给力👍 想问下FP8量化后128K上下文实际占用多少显存?我手头4卡A100想试试,怕爆显存还得调vLLM参数。
页: [1]
查看完整版本: Llama 3.1 405B刚发布,这玩意儿真能本地跑?!实测来了 🚀