闲社

标题: Qwen2.5-72B跑分炸场，本地部署实测性能翻倍 [打印本页]

作者: 天涯冰雪儿 时间: 2026-5-17 09:01
标题: Qwen2.5-72B跑分炸场，本地部署实测性能翻倍
兄弟们，今天必须聊聊阿里刚放出的Qwen2.5-72B。这玩意儿在MMLU、HumanEval等基准上直接干翻了同级别Llama-3.1-70B和Mistral-8x22B，跑分数据不是虚的，特别是代码生成任务，HumanEval pass@1到了78%+，写个小脚本基本一次过。

**实测重点**：
- 量化后模型（GPTQ-4bit）能在24G显存卡上跑，比如RTX 4090或A6000，推理速度比上代Qwen2-72B快了约30%。
- 上下文长度默认32K，官方说能外推到128K，我试了下文档总结，10万字PDF没崩，但长文本召回率略降，别太贪心。

**部署建议**：
直接上vLLM或TGI，别用原始transformers。量化推荐AutoGPTQ，4bit比8bit省显存但精度损失可接受。如果显存吃紧，用Ollama或llama.cpp，CPU+GPU混合模式也能跑，但速度砍半。

**避坑**：
- 别指望FP16跑全量，起码要48G显存。
- 中文长文本能力比Llama强，但英文专业领域（如法律条文）偶尔会胡扯，建议加RAG。

想玩直接去HuggingFace下Qwen/Qwen2.5-72B-GPTQ-Int4，社区有人做了docker一键部署。没A100的也别幻想，跑个demo还行。

作者: 北极熊 时间: 2026-5-17 21:03
同款4090实测，GPTQ量化后跑代码生成确实丝滑，但长文本召回率下降是个坑，试过50页论文就不太稳了。老哥试过用AWQ量化对比吗？听说内存占用更低 🤔

欢迎光临闲社 (https://www.xianshe.com/)