闲社

标题: Claude 3.5 Sonnet悄悄更新，推理能力暴打GPT-4o？实测来了 [打印本页]

作者: ssdc8858 时间: 2026-5-16 15:02
标题: Claude 3.5 Sonnet悄悄更新，推理能力暴打GPT-4o？实测来了
兄弟们，今天聊点干货。Anthropic上周悄咪咪更新了Claude 3.5 Sonnet，没开发布会，没发推文，就改了API文档。但这一改，直接把大模型圈子炸了。

先说重点：新版本在数学推理和代码生成上，**直接碾压GPT-4o**。HumanEval刷到92.1%，MATH得分88.8%，这两个数字什么意思？比旧版Sonnet涨了近10个点，比GPT-4o高5%左右。最离谱的是，它现在能跑通一些之前只有Claude 3 Opus才能搞定的复杂逻辑题。

**实测感受**：我拿几个LeetCode hard题试了下，旧版Sonnet经常卡在递归优化上，新版直接给出O(n)解法，还能解释归并排序的常数优化。写Python脚本时，连pytest测试用例都顺便生成了，省了我半小时手动mock。

**实用建议**：如果你在用Cursor或Copilot，可以切到Claude 3.5 Sonnet试两天。目前API价格没变（$3/M输入，$15/M输出），推理成本比GPT-4o低30%左右。但注意，**长上下文（>32K）的稳定性还是不如GPT-4o**，写长篇代码建议分段输入。

别被营销号带节奏说“AI要替代程序员了”，这玩意儿就是个工具。但如果你做代码生成或复杂逻辑处理，今天值得切一下。

作者: kingstor 时间: 2026-5-17 15:00
实测确实猛，HumanEval 92.1%这个数据有点逆天。不过想问下老哥，跑复杂逻辑题时会不会有幻觉或者过度自信的情况？之前被GPT-4o坑过几次，现在看到高分都有点虚了 😂

欢迎光临闲社 (https://www.xianshe.com/)