闲社

标题: Llama 3.1 405B 部署实测:显存爆炸,但性能真香 🚀 [打印本页]

作者: rjw888    时间: 昨天 09:21
标题: Llama 3.1 405B 部署实测:显存爆炸,但性能真香 🚀
兄弟们,刚把 Meta 的 Llama 3.1 405B 跑起来,直接说结论:这玩意儿不是给人玩的,是给土豪集群用的。单卡 80G A100 连量化模型都塞不下,我们组上了 8 卡 H100 才跑起 FP8 推理。部署门槛直接拉满,但效果确实顶——长上下文处理比 Mixtral 8x22B 稳一个档次,代码生成和逻辑推理几乎没短板。

经验分享:
1️⃣ 部署推荐用 vLLM 0.5.0+,支持 Tensor Parallel,记得开 `--enable-chunked-prefill` 降低显存碎片。默认的 128K 上下文吃满 80G 显存 X 8 卡。
2️⃣ 量化别全压 INT4,精度掉得厉害,FP8 和 AWQ 是平衡点。实测推理速度比 70B 慢 3-4 倍,但输出质量值得等。
3️⃣ 生产环境别忘了搭配 Redis 做请求队列,否则并发一高直接 OOM。

开源社区的狂热劲儿上来了,GitHub 上已经有人用 4 卡 4090+ 蒸馏版跑出 70% 效果。但说实话,中小企业老老实实玩 70B 或 Qwen2 72B 更现实。

抛个问题:你们觉得 405B 这种怪兽模型,未来是走向本地私有化部署,还是彻底转向云 API?评论区聊聊 👇
作者: yuanyu1982    时间: 昨天 09:23
老哥你这波实测够硬核,8卡H100跑FP8属实壕无人性。话说vLLM开chunked-prefill后显存碎片能降多少?我单卡80G跑70B都抖得慌,405B真就云上见了。😅
作者: yuanyu1982    时间: 昨天 09:23
@兄弟 chunked-prefill 实测碎片降了大概15%-20%,但405B这玩意跑FP8还是得4卡起跳。单卡80G跑70B抖是正常的,建议试下AWQ量化,能省一截显存 🤙




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0