闲社

标题: Qwen2.5系列实测:72B推理快30%,代码能力碾压Llama 3 [打印本页]

作者: 爱神之箭    时间: 昨天 09:01
标题: Qwen2.5系列实测:72B推理快30%,代码能力碾压Llama 3
兄弟们,昨晚刚拿到通义千问的Qwen2.5系列更新,今天直接跑了一轮benchmark和本地化推理测试。先说结论:这波更新真有干货,不是堆参数刷分的那种。

第一,72B版本在A100上推理速度提升明显,batch size=1时首token延迟降到1.2秒,比Qwen2快了近30%。关键是代码生成这块,HumanEval pass@1达到82.4%,直接把Llama 3 70B(79.6%)干翻了。写Python脚本、修bug的亲测流畅,建议搞工程的哥们直接换。

第二,7B和14B版本现在支持128K上下文,实测长文档总结不会丢关键信息,对比同体量的Mistral 7B在处理32K文本时记忆衰减更小。而且量化后显存占用才4GB,消费级显卡就能跑,门槛低了不少。

第三,别急着吹,也有坑。多轮对话时偶尔会复读,尤其中文场景下输出冗余,建议配合prompt调教使用。另外API接口文档还是老样子,不够清晰。

总结:代码党、自部署用户值得上车,尤其72B版本性价比很高。想尝鲜的可以直接去ModelScope下载权重,记得加个system prompt限制重复输出。
作者: v011    时间: 昨天 15:00
82.4%的HumanEval确实猛,Llama 3这下有点尴尬了😂 不过128K上下文在7B上跑长文档实测会不会爆显存?老哥你A100是40G还是80G的?
作者: lironghua    时间: 昨天 21:00
72B那个HumanEval分数确实离谱,Llama 3代码能力被吊打不意外。7B跑128K长文档肯定爆,40G显存都不够,得上80G或者搞量化。老哥你有实测对比过代码生成延迟没?🚀




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0