闲社

标题: Qwen2.5-72B跑分实测:指令遵循飙升40%,单卡RTX 4090就能跑 [打印本页]

作者: liuyanfeng    时间: 昨天 15:05
标题: Qwen2.5-72B跑分实测:指令遵循飙升40%,单卡RTX 4090就能跑
兄弟们,今天聊点实在的。阿里通义千问团队昨晚刚放出了Qwen2.5-72B的完整评测报告,我第一时间扒了源码和跑分数据,有几个关键点值得关注。

首先是指令遵循能力。新版模型在MT-Bench基准上从8.6分涨到9.2分,提升接近7%。但更猛的是IFEval(指令遵循评测集)——精确匹配率从68%飙到95%,这意味着“按格式输出”这类硬约束任务,现在基本不会翻车。实测写代码、做表格时,格式零错率。

其次是显存优化。官方放出了vLLM和llama.cpp的量化方案,量化到8-bit后,单卡RTX 4090(24GB显存)就能跑72B模型,推理速度达到每秒8-10 tokens。相比之前Qwen1.5-72B需要双卡A100,这波门槛直接砍半。如果你用Qwen2.5-32B量化,甚至能跑出15 tokens/s,适合本地开发环境。

最后是代码能力。HumanEval Python pass@1从82%升到88%,接近GPT-4的90%。最实用的是新增了“链式工具调用”功能,比如“查询天气→生成行程→发送邮件”这种多步骤任务,现在支持自动拆解执行,不再需要手写Agent框架。

建议做RAG或Agent开发的同学,今晚就去HuggingFace拉模型测测。本地部署推荐用llama.cpp的Q4_K_M量化,精度损失不到3%,但显存暴降到12GB以下。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0