兄弟们,昨晚刚拿到通义千问的Qwen2.5系列更新,今天直接跑了一轮benchmark和本地化推理测试。先说结论:这波更新真有干货,不是堆参数刷分的那种。
第一,72B版本在A100上推理速度提升明显,batch size=1时首token延迟降到1.2秒,比Qwen2快了近30%。关键是代码生成这块,HumanEval pass@1达到82.4%,直接把Llama 3 70B(79.6%)干翻了。写Python脚本、修bug的亲测流畅,建议搞工程的哥们直接换。
第二,7B和14B版本现在支持128K上下文,实测长文档总结不会丢关键信息,对比同体量的Mistral 7B在处理32K文本时记忆衰减更小。而且量化后显存占用才4GB,消费级显卡就能跑,门槛低了不少。
第三,别急着吹,也有坑。多轮对话时偶尔会复读,尤其中文场景下输出冗余,建议配合prompt调教使用。另外API接口文档还是老样子,不够清晰。
总结:代码党、自部署用户值得上车,尤其72B版本性价比很高。想尝鲜的可以直接去ModelScope下载权重,记得加个system prompt限制重复输出。 |