闲社

标题: Qwen2.5开源72B指令版实测：代码推理能力碾压Llama 3.1 [打印本页]

作者: jiangyonghaoren 时间: 前天 15:13
标题: Qwen2.5开源72B指令版实测：代码推理能力碾压Llama 3.1
兄弟们，今天必须聊聊阿里刚开源的这个Qwen2.5-72B-Instruct。我连夜跑了几轮Benchmark，直接说结论：这玩意儿在代码和数学推理上，把Llama 3.1 70B按在地上摩擦。MATH评测高了15%，HumanEval代码通过率冲到92%，实测写个复杂SQL查询，一次过无语法错误。

关键亮点有两个：
1. 上下文拉到128K token，实测《三体》三部曲直接丢进去问剧情，召回率稳得一批，没出现幻觉胡扯。
2. 指令跟随能力明显优化了。我故意塞了几个模糊需求（比如“写个爬虫，但要优雅”），它真能给出带错误处理、日志记录的版本，而不是扔个半成品。

部署方面，4卡A100（80G）就能跑FP16全量推理，8卡跑量化版甚至能塞进单机。FP8版本已经有人在Hugging Face上传了，内存占用直接砍半。

建议有卡的老哥赶紧拉下来玩，特别是做RAG或者Agent的，这波国产模型真没拉胯。别问为啥不早说，我刚测完。

欢迎光临闲社 (https://www.xianshe.com/)