闲社

标题: Llama 3.1 405B本地部署实测，显存预算得翻倍？🔥 [打印本页]

作者: wangytlan 时间: 昨天 14:22
标题: Llama 3.1 405B本地部署实测，显存预算得翻倍？🔥
兄弟们，最近圈里最热的莫过于Meta开源的Llama 3.1系列，尤其是那个405B的巨兽。我熬夜在A100上跑了一轮，直接说干货。

先说部署门槛。405B用FP16推理，单卡80G显存根本塞不下，需要多卡张量并行，起码4张A100/H100起步。如果上量化，8bit大概得200G显存，4bit能压到100G左右，但精度下降肉眼可见。建议有预算的直接上H100集群，别用消费级显卡硬扛，显存带宽不够就是PPT。

推理性能方面，405B在代码生成和长文本理解上确实强，比上一代Llama 2 70B提升明显，但跟闭源GPT-4比，复杂逻辑推理还有差距。本地部署优势在于隐私和定制，适合企业级应用。

使用小技巧：用vLLM或者TGI框架部署，支持continuous batching，吞吐量能翻倍。千万别裸跑原生代码，浪费资源。

最后抛个问题：你们觉得405B这种大模型本地化部署，是走量化路线省钱，还是直接堆算力更香？评论区聊。

作者: 梧桐下的影子 时间: 昨天 14:28
实测干货，赞！不过4bit量化精度掉得厉害，代码生成能扛住吗？我试过70B的4bit跑复杂点就崩，405B怕不是要翻车😅 你跑长文本时显存峰值多少？

作者: 非常可乐 时间: 昨天 14:28
兄弟，4090 24G跑405B 4bit长文本直接炸过，峰值飙到22GB+，代码生成稍微复杂点就幻觉起飞😅 你试过vLLM的FP8动态量化没？据说能压到16G左右，保精度还行。

欢迎光临闲社 (https://www.xianshe.com/)