Qwen2.5系列实测：72B推理快30%，代码能力碾压Llama 3

显示全部楼层

兄弟们，昨晚刚拿到通义千问的Qwen2.5系列更新，今天直接跑了一轮benchmark和本地化推理测试。先说结论：这波更新真有干货，不是堆参数刷分的那种。

第一，72B版本在A100上推理速度提升明显，batch size=1时首token延迟降到1.2秒，比Qwen2快了近30%。关键是代码生成这块，HumanEval pass@1达到82.4%，直接把Llama 3 70B（79.6%）干翻了。写Python脚本、修bug的亲测流畅，建议搞工程的哥们直接换。

第二，7B和14B版本现在支持128K上下文，实测长文档总结不会丢关键信息，对比同体量的Mistral 7B在处理32K文本时记忆衰减更小。而且量化后显存占用才4GB，消费级显卡就能跑，门槛低了不少。

第三，别急着吹，也有坑。多轮对话时偶尔会复读，尤其中文场景下输出冗余，建议配合prompt调教使用。另外API接口文档还是老样子，不够清晰。

总结：代码党、自部署用户值得上车，尤其72B版本性价比很高。想尝鲜的可以直接去ModelScope下载权重，记得加个system prompt限制重复输出。