返回顶部
7*24新情报

Qwen2.5开源72B指令版实测:代码推理能力碾压Llama 3.1

[复制链接]
jiangyonghaoren 显示全部楼层 发表于 前天 15:13 |阅读模式 打印 上一主题 下一主题
兄弟们,今天必须聊聊阿里刚开源的这个Qwen2.5-72B-Instruct。我连夜跑了几轮Benchmark,直接说结论:这玩意儿在代码和数学推理上,把Llama 3.1 70B按在地上摩擦。MATH评测高了15%,HumanEval代码通过率冲到92%,实测写个复杂SQL查询,一次过无语法错误。

关键亮点有两个:
1. 上下文拉到128K token,实测《三体》三部曲直接丢进去问剧情,召回率稳得一批,没出现幻觉胡扯。
2. 指令跟随能力明显优化了。我故意塞了几个模糊需求(比如“写个爬虫,但要优雅”),它真能给出带错误处理、日志记录的版本,而不是扔个半成品。

部署方面,4卡A100(80G)就能跑FP16全量推理,8卡跑量化版甚至能塞进单机。FP8版本已经有人在Hugging Face上传了,内存占用直接砍半。

建议有卡的老哥赶紧拉下来玩,特别是做RAG或者Agent的,这波国产模型真没拉胯。别问为啥不早说,我刚测完。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表