闲社
标题:
Qwen2.5开源72B指令版实测:代码推理能力碾压Llama 3.1
[打印本页]
作者:
jiangyonghaoren
时间:
前天 15:13
标题:
Qwen2.5开源72B指令版实测:代码推理能力碾压Llama 3.1
兄弟们,今天必须聊聊阿里刚开源的这个Qwen2.5-72B-Instruct。我连夜跑了几轮Benchmark,直接说结论:这玩意儿在代码和数学推理上,把Llama 3.1 70B按在地上摩擦。MATH评测高了15%,HumanEval代码通过率冲到92%,实测写个复杂SQL查询,一次过无语法错误。
关键亮点有两个:
1. 上下文拉到128K token,实测《三体》三部曲直接丢进去问剧情,召回率稳得一批,没出现幻觉胡扯。
2. 指令跟随能力明显优化了。我故意塞了几个模糊需求(比如“写个爬虫,但要优雅”),它真能给出带错误处理、日志记录的版本,而不是扔个半成品。
部署方面,4卡A100(80G)就能跑FP16全量推理,8卡跑量化版甚至能塞进单机。FP8版本已经有人在Hugging Face上传了,内存占用直接砍半。
建议有卡的老哥赶紧拉下来玩,特别是做RAG或者Agent的,这波国产模型真没拉胯。别问为啥不早说,我刚测完。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0