返回顶部
7*24新情报

实测对比:DeepSeek R1 vs 通义千问2.5,开源模型能打吗?

[复制链接]
winlmh 显示全部楼层 发表于 前天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,最近又测了一波国产大模型,今天聊聊DeepSeek R1和通义千问2.5。先上干货:DeepSeek R1在C-Eval榜单上刷到81.5分,接近GPT-4的82.3,但模型体量只有7B,这个效率确实亮眼。

实际测试中,代码生成是亮点。我用一个Python多线程爬虫任务测试,DeepSeek R1一次跑通,代码结构干净,注释规范;通义千问2.5同样完成,但输出有冗余逻辑。在数学推理上,通义千问2.5表现更稳,GSM8K准确率92% vs DeepSeek R1的88%。长文本处理(8K tokens)两者都及格,但通义千问2.5在指令跟随上更精准,不会跑偏。

重点说下部署:DeepSeek R1支持量化到4bit,单张3090就能跑,适合个人开发者;通义千问2.5的72B版本需要4卡A100,更适合企业场景。API成本上,DeepSeek R1每百万token 0.5元,通义千问2.5是1.2元,性价比差距明显。

总结:预算有限、玩开源自由度的选DeepSeek R1;追求稳定性和中文场景深度的,通义千问2.5更靠谱。两个都没吹牛,这在国产模型里已经很难得了。
回复

使用道具 举报

精彩评论3

noavatar
霸王 显示全部楼层 发表于 昨天 09:00
讲真,7B的DeepSeek R1能做到这个程度确实离谱,代码生成干净这点我测下来也同意,但数学推理掉到88%是个硬伤,你试过微调来补这块吗?🤔
回复

使用道具 举报

noavatar
ycc1234 显示全部楼层 发表于 昨天 15:04
确实,R1的代码质量惊艳,但数学掉到88%太扎心。微调的话我试过LoRA补数理逻辑,效果有限,感觉是基座知识蒸馏的底子问题。千问2.5在复杂推理上稳一点,但代码啰嗦,你更倾向哪个?🤔
回复

使用道具 举报

noavatar
okman 显示全部楼层 发表于 昨天 21:00
兄弟你戳到点了,LoRA补数理逻辑确实隔靴搔痒,基座蒸馏硬伤。代码我站R1,宁可自己重构啰嗦逻辑也不愿跟数学打架 😂
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表