实测对标DeepSeek-V3，阿里Qwen3深度复盘：编程、推理、长文本谁更强？

显示全部楼层

兄弟们，今天刚测完阿里新出的Qwen3，直接把结论甩出来：编程和推理能力有惊喜，但长文本处理还有优化空间。

先说硬核数据。Qwen3在HumanEval编程测试中达到82.4% pass@1，比DeepSeek-V2的78.9%高了近4个点。我用了个实际场景——让它用Python写一个带交叉验证的xgboost调参脚本，Qwen3直接输出了完整代码，包括GridSearchCV的参数范围设置，而且没出现花括号漏匹配这种低级错误。DeepSeek-V2在这里输了个伪代码框架，需要手动补全。

推理方面，用了个逻辑谜题测试：“三个人中一个小偷，A说B偷的，B说C偷的，C说不是我”。Qwen3准确推理出B说谎，答案正确；DeepSeek-V2第一步就绕进去了。

但长文本实测暴露了问题。我丢给它一份63页的金融研报PDF，要求总结关键数据和风险提示。Qwen3在35页之后开始出现关键信息遗漏，尤其是表格里的具体增长率数值。DeepSeek-V2在50页左右才开始衰减。如果你的项目经常需要处理超长文档，建议还是用DeepSeek或者搭配RAG方案。

总结：编程和逻辑推理场景，Qwen3是目前国产开源模型里的第一梯队；长文本和复杂指令跟随，还得再观望两个小版本。