返回顶部
7*24新情报

本地部署Qwen2.5-72B,8卡3090实测推理速度翻倍,显存优化有坑

[复制链接]
抗日救国 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊大模型本地部署的新进展。刚测完Qwen2.5-72B在8张RTX 3090上的推理效率,分享几个干货。

先说配置:用vLLM 0.6.0 + CUDA 12.4,FP16精度下模型占显存约144GB(72B*2),8卡3090共192GB,刚刚够。实测输出速度从原来Qwen2的35 tokens/s提升到78 tokens/s,翻了一倍多。关键原因是Qwen2.5用了GQA(分组查询注意力),降低KV cache压力,配合vLLM的PagedAttention,显存碎片减少30%。

但有个坑:别直接用默认配置跑长文本。我试了32K上下文,显存直接炸了。后来发现得调`--max-model-len 16384`和`--gpu-memory-utilization 0.85`,再启用`--enable-prefix-caching`,才能稳定跑满8K。实测OOM率从40%降到5%。

推荐工具:ollama还只支持7B级别,别浪费3090;建议直接用vLLM或TGI。想省显存可以试AWQ 4-bit量化,精度损失不到1%,但显存需求降到36GB,一张A100就能跑。

最后提醒:3090的NVLink带宽只有112GB/s,多卡通信是瓶颈。用张量并行时设`--tensor-parallel-size 8`,别用流水线并行,后者延迟高5倍。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表