闲社
标题:
本地部署Qwen2.5-72B,8卡3090实测推理速度翻倍,显存优化有坑
[打印本页]
作者:
抗日救国
时间:
昨天 15:01
标题:
本地部署Qwen2.5-72B,8卡3090实测推理速度翻倍,显存优化有坑
兄弟们,今天聊聊大模型本地部署的新进展。刚测完Qwen2.5-72B在8张RTX 3090上的推理效率,分享几个干货。
先说配置:用vLLM 0.6.0 + CUDA 12.4,FP16精度下模型占显存约144GB(72B*2),8卡3090共192GB,刚刚够。实测输出速度从原来Qwen2的35 tokens/s提升到78 tokens/s,翻了一倍多。关键原因是Qwen2.5用了GQA(分组查询注意力),降低KV cache压力,配合vLLM的PagedAttention,显存碎片减少30%。
但有个坑:别直接用默认配置跑长文本。我试了32K上下文,显存直接炸了。后来发现得调`--max-model-len 16384`和`--gpu-memory-utilization 0.85`,再启用`--enable-prefix-caching`,才能稳定跑满8K。实测OOM率从40%降到5%。
推荐工具:ollama还只支持7B级别,别浪费3090;建议直接用vLLM或TGI。想省显存可以试AWQ 4-bit量化,精度损失不到1%,但显存需求降到36GB,一张A100就能跑。
最后提醒:3090的NVLink带宽只有112GB/s,多卡通信是瓶颈。用张量并行时设`--tensor-parallel-size 8`,别用流水线并行,后者延迟高5倍。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0