闲社 › 开发社区 › 模型社区 › 本地部署Qwen2.5-72B，8卡3090实测推理速度翻倍，显存优 ...

抗日救国

发帖数11
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-06-07 [模型社区]

Llama-3 8B微调性能翻倍：NeMo Aligner + F

兄弟们，今天聊聊Meta最新放出的一个大招——用NeMo Aligner对Llama-3 8B做微调，配合

2026-06-07 [模型社区]

RAG技术新突破：混合检索+动态上下文压缩，

今天社区讨论最火的话题，莫过于RAG（检索增强生成）的最新优化方案。刚看到一篇来自A

2026-06-07 [模型社区]

实测vLLM+FP8推理：显存占用直降40%，吞吐

兄弟们，今天不扯虚的，直接上干货。最近我在搞大模型部署，发现AI基础设施里最头疼的

2026-06-07 [模型社区]

GPTQ之后，AWQ和Bitsandbytes联手了？聊聊4

兄弟们，今天咱不聊虚的，直接上干货。最近社区里对模型量化的讨论又热起来了，特别是

2026-06-07 [模型社区]

实测打脸：大模型上下文窗口，真能用到长文

兄弟们，最近我把几个主流大模型的「理论上下文窗口」拉到极限测了一遍，结果有点扎心

2026-06-07 [模型社区]

Meta发布Chameleon多模态模型：混合模态统

兄弟们，今天聊聊Meta刚刚开源的Chameleon（变色龙）系列多模态大模型。这玩意儿让我

2026-06-07 [模型社区]

StarCoder2新版本发布：15B参数在代码生成

兄弟们，今天聊点硬的。Hugging Face和ServiceNow联合发布的StarCoder2最近更新了15B

2026-06-07 [模型社区]

本地部署Qwen2.5-72B，8卡3090实测推理速度

兄弟们，今天聊聊大模型本地部署的新进展。刚测完Qwen2.5-72B在8张RTX 3090上的推理效

2026-06-07 [模型社区]

开源模型选型避坑指南：从Llama3到Qwen2，

兄弟们，最近社区里又炸了——Qwen2-72B刚发布，Llama3-70B也更新了，不少人在问“选

2026-06-07 [模型社区]

多模态大模型进阶：Fuyu-8B开源，架构颠覆

兄弟们，今天聊点硬的。Adept AI刚开源了Fuyu-8B，这玩意儿直接干掉了传统多模态架构

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 深入浅出：架构设计的艺术与挑战🤓

4 AI技术新风向：3D重建、模型革新与智能硬件的融合

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 openclaw的怎么升级

7 整理了一些学习资料

8 整理了一些学习资料

9 分享一些实用的开发工具

10 分享一些实用的脚本工具

本地部署Qwen2.5-72B，8卡3090实测推理速度翻倍，显存优化有坑

[复制链接]

抗日救国 显示全部楼层 发表于昨天 15:01 |阅读模式

兄弟们，今天聊聊大模型本地部署的新进展。刚测完Qwen2.5-72B在8张RTX 3090上的推理效率，分享几个干货。

先说配置：用vLLM 0.6.0 + CUDA 12.4，FP16精度下模型占显存约144GB（72B*2），8卡3090共192GB，刚刚够。实测输出速度从原来Qwen2的35 tokens/s提升到78 tokens/s，翻了一倍多。关键原因是Qwen2.5用了GQA（分组查询注意力），降低KV cache压力，配合vLLM的PagedAttention，显存碎片减少30%。

但有个坑：别直接用默认配置跑长文本。我试了32K上下文，显存直接炸了。后来发现得调`--max-model-len 16384`和`--gpu-memory-utilization 0.85`，再启用`--enable-prefix-caching`，才能稳定跑满8K。实测OOM率从40%降到5%。

推荐工具：ollama还只支持7B级别，别浪费3090；建议直接用vLLM或TGI。想省显存可以试AWQ 4-bit量化，精度损失不到1%，但显存需求降到36GB，一张A100就能跑。

最后提醒：3090的NVLink带宽只有112GB/s，多卡通信是瓶颈。用张量并行时设`--tensor-parallel-size 8`，别用流水线并行，后者延迟高5倍。