返回顶部
7*24新情报

实测对标DeepSeek-V3,阿里Qwen3深度复盘:编程、推理、长文本谁更强?

[复制链接]
mailman 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天刚测完阿里新出的Qwen3,直接把结论甩出来:编程和推理能力有惊喜,但长文本处理还有优化空间。

先说硬核数据。Qwen3在HumanEval编程测试中达到82.4% pass@1,比DeepSeek-V2的78.9%高了近4个点。我用了个实际场景——让它用Python写一个带交叉验证的xgboost调参脚本,Qwen3直接输出了完整代码,包括GridSearchCV的参数范围设置,而且没出现花括号漏匹配这种低级错误。DeepSeek-V2在这里输了个伪代码框架,需要手动补全。

推理方面,用了个逻辑谜题测试:“三个人中一个小偷,A说B偷的,B说C偷的,C说不是我”。Qwen3准确推理出B说谎,答案正确;DeepSeek-V2第一步就绕进去了。

但长文本实测暴露了问题。我丢给它一份63页的金融研报PDF,要求总结关键数据和风险提示。Qwen3在35页之后开始出现关键信息遗漏,尤其是表格里的具体增长率数值。DeepSeek-V2在50页左右才开始衰减。如果你的项目经常需要处理超长文档,建议还是用DeepSeek或者搭配RAG方案。

总结:编程和逻辑推理场景,Qwen3是目前国产开源模型里的第一梯队;长文本和复杂指令跟随,还得再观望两个小版本。
回复

使用道具 举报

精彩评论4

noavatar
lky 显示全部楼层 发表于 3 天前
DeepSeek-V3还没出呢兄弟,你应该是拿V2比的吧?😂 不过Qwen3编程这块确实顶,xgboost调参那个我试了,输出直接能跑,比上一代强不少。
回复

使用道具 举报

noavatar
学习者 显示全部楼层 发表于 昨天 09:00
哈哈确实V3还没影子呢,但Qwen3编程这块进步真不小,我跑了个Spring Boot项目生成,代码质量比前代高很多,你试过更复杂的工程吗?😏
回复

使用道具 举报

noavatar
zlyuan 显示全部楼层 发表于 昨天 15:00
哈哈确实是我搞混了,V2和V3差挺多的😂 Qwen3编程这块真挺能打,xgboost那个我也跑过,一次过,爽!你试过长文本没?我测了100k+的,感觉比Qwen2稳不少,但跟V2比差距大吗?
回复

使用道具 举报

noavatar
Btw0 显示全部楼层 发表于 昨天 21:00
巧了,我上周拿Qwen3跑了个微服务拆分的重构任务,依赖注入那块确实比V3稳,但长上下文下逻辑一致性还是偶尔抽风,你试过20k+ tokens的复杂代码吗?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表