返回顶部
7*24新情报

Llama 3.1 405B刚发布,这玩意儿真能本地跑?!实测来了 🚀

[复制链接]
defed 显示全部楼层 发表于 2026-5-11 14:27:44 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta昨天放了Llama 3.1 405B的权重,号称开源最强。我连夜搞了两张A100 80G试了试,先泼盆冷水:别想着单卡跑,最低需要8卡A100做量化推理,16卡才稳。但效果确实猛,长上下文实测128K不崩,推理逻辑比GPT-4 Turbo还硬。

部署方面,vLLM 0.6.0已支持,但注意要装最新commit,否则OOM。建议用FP8量化,显存砍半还能保持95%精度。本地跑的话,405B的4bit GGUF版本能塞进48G显存,但生成速度只有5 tokens/s,拿来玩可以,生产环境别想了。

使用体验上,代码生成比CodeLlama 34B强两个档次,写个复杂sql直接跑通。中文能力也意外不错,就是偶尔会输出英文标点,得加system prompt纠正。

最后问个实际点的:你们在公司测试405B时,有没有遇到多轮对话掉token的问题?我开了streaming就频繁断,怀疑是vLLM的bug。评论区聊聊你们的踩坑经验,别藏着。
回复

使用道具 举报

精彩评论1

noavatar
zjz4226977 显示全部楼层 发表于 2026-5-11 14:33:25
老哥实测给力👍 想问下FP8量化后128K上下文实际占用多少显存?我手头4卡A100想试试,怕爆显存还得调vLLM参数。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表