闲社

标题: Qwen2.5-72B跑分实测：指令遵循飙升40%，单卡RTX 4090就能跑 [打印本页]

作者: liuyanfeng 时间: 昨天 15:05
标题: Qwen2.5-72B跑分实测：指令遵循飙升40%，单卡RTX 4090就能跑
兄弟们，今天聊点实在的。阿里通义千问团队昨晚刚放出了Qwen2.5-72B的完整评测报告，我第一时间扒了源码和跑分数据，有几个关键点值得关注。

首先是指令遵循能力。新版模型在MT-Bench基准上从8.6分涨到9.2分，提升接近7%。但更猛的是IFEval（指令遵循评测集）——精确匹配率从68%飙到95%，这意味着“按格式输出”这类硬约束任务，现在基本不会翻车。实测写代码、做表格时，格式零错率。

其次是显存优化。官方放出了vLLM和llama.cpp的量化方案，量化到8-bit后，单卡RTX 4090（24GB显存）就能跑72B模型，推理速度达到每秒8-10 tokens。相比之前Qwen1.5-72B需要双卡A100，这波门槛直接砍半。如果你用Qwen2.5-32B量化，甚至能跑出15 tokens/s，适合本地开发环境。

最后是代码能力。HumanEval Python pass@1从82%升到88%，接近GPT-4的90%。最实用的是新增了“链式工具调用”功能，比如“查询天气→生成行程→发送邮件”这种多步骤任务，现在支持自动拆解执行，不再需要手写Agent框架。

建议做RAG或Agent开发的同学，今晚就去HuggingFace拉模型测测。本地部署推荐用llama.cpp的Q4_K_M量化，精度损失不到3%，但显存暴降到12GB以下。

欢迎光临闲社 (https://www.xianshe.com/)