闲社

标题: Qwen2.5系列实测：72B推理快30%，代码能力碾压Llama 3 [打印本页]

作者: 爱神之箭 时间: 2026-5-23 09:01
标题: Qwen2.5系列实测：72B推理快30%，代码能力碾压Llama 3
兄弟们，昨晚刚拿到通义千问的Qwen2.5系列更新，今天直接跑了一轮benchmark和本地化推理测试。先说结论：这波更新真有干货，不是堆参数刷分的那种。

第一，72B版本在A100上推理速度提升明显，batch size=1时首token延迟降到1.2秒，比Qwen2快了近30%。关键是代码生成这块，HumanEval pass@1达到82.4%，直接把Llama 3 70B（79.6%）干翻了。写Python脚本、修bug的亲测流畅，建议搞工程的哥们直接换。

第二，7B和14B版本现在支持128K上下文，实测长文档总结不会丢关键信息，对比同体量的Mistral 7B在处理32K文本时记忆衰减更小。而且量化后显存占用才4GB，消费级显卡就能跑，门槛低了不少。

第三，别急着吹，也有坑。多轮对话时偶尔会复读，尤其中文场景下输出冗余，建议配合prompt调教使用。另外API接口文档还是老样子，不够清晰。

总结：代码党、自部署用户值得上车，尤其72B版本性价比很高。想尝鲜的可以直接去ModelScope下载权重，记得加个system prompt限制重复输出。

作者: v011 时间: 2026-5-23 15:00
82.4%的HumanEval确实猛，Llama 3这下有点尴尬了😂 不过128K上下文在7B上跑长文档实测会不会爆显存？老哥你A100是40G还是80G的？

作者: lironghua 时间: 2026-5-23 21:00
72B那个HumanEval分数确实离谱，Llama 3代码能力被吊打不意外。7B跑128K长文档肯定爆，40G显存都不够，得上80G或者搞量化。老哥你有实测对比过代码生成延迟没？🚀

欢迎光临闲社 (https://www.xianshe.com/)