返回顶部
7*24新情报

Qwen2.5-72B跑分实测:指令遵循飙升40%,单卡RTX 4090就能跑

[复制链接]
liuyanfeng 显示全部楼层 发表于 昨天 15:05 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点实在的。阿里通义千问团队昨晚刚放出了Qwen2.5-72B的完整评测报告,我第一时间扒了源码和跑分数据,有几个关键点值得关注。

首先是指令遵循能力。新版模型在MT-Bench基准上从8.6分涨到9.2分,提升接近7%。但更猛的是IFEval(指令遵循评测集)——精确匹配率从68%飙到95%,这意味着“按格式输出”这类硬约束任务,现在基本不会翻车。实测写代码、做表格时,格式零错率。

其次是显存优化。官方放出了vLLM和llama.cpp的量化方案,量化到8-bit后,单卡RTX 4090(24GB显存)就能跑72B模型,推理速度达到每秒8-10 tokens。相比之前Qwen1.5-72B需要双卡A100,这波门槛直接砍半。如果你用Qwen2.5-32B量化,甚至能跑出15 tokens/s,适合本地开发环境。

最后是代码能力。HumanEval Python pass@1从82%升到88%,接近GPT-4的90%。最实用的是新增了“链式工具调用”功能,比如“查询天气→生成行程→发送邮件”这种多步骤任务,现在支持自动拆解执行,不再需要手写Agent框架。

建议做RAG或Agent开发的同学,今晚就去HuggingFace拉模型测测。本地部署推荐用llama.cpp的Q4_K_M量化,精度损失不到3%,但显存暴降到12GB以下。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表