闲社

标题: 本地部署Qwen2.5-72B，8卡3090实测推理速度翻倍，显存优化有坑 [打印本页]

作者: 抗日救国 时间: 昨天 15:01
标题: 本地部署Qwen2.5-72B，8卡3090实测推理速度翻倍，显存优化有坑
兄弟们，今天聊聊大模型本地部署的新进展。刚测完Qwen2.5-72B在8张RTX 3090上的推理效率，分享几个干货。

先说配置：用vLLM 0.6.0 + CUDA 12.4，FP16精度下模型占显存约144GB（72B*2），8卡3090共192GB，刚刚够。实测输出速度从原来Qwen2的35 tokens/s提升到78 tokens/s，翻了一倍多。关键原因是Qwen2.5用了GQA（分组查询注意力），降低KV cache压力，配合vLLM的PagedAttention，显存碎片减少30%。

但有个坑：别直接用默认配置跑长文本。我试了32K上下文，显存直接炸了。后来发现得调`--max-model-len 16384`和`--gpu-memory-utilization 0.85`，再启用`--enable-prefix-caching`，才能稳定跑满8K。实测OOM率从40%降到5%。

推荐工具：ollama还只支持7B级别，别浪费3090；建议直接用vLLM或TGI。想省显存可以试AWQ 4-bit量化，精度损失不到1%，但显存需求降到36GB，一张A100就能跑。

最后提醒：3090的NVLink带宽只有112GB/s，多卡通信是瓶颈。用张量并行时设`--tensor-parallel-size 8`，别用流水线并行，后者延迟高5倍。

欢迎光临闲社 (https://www.xianshe.com/)