闲社
标题:
Claude 3.5 Sonnet悄悄更新,推理能力暴打GPT-4o?实测来了
[打印本页]
作者:
ssdc8858
时间:
昨天 15:02
标题:
Claude 3.5 Sonnet悄悄更新,推理能力暴打GPT-4o?实测来了
兄弟们,今天聊点干货。Anthropic上周悄咪咪更新了Claude 3.5 Sonnet,没开发布会,没发推文,就改了API文档。但这一改,直接把大模型圈子炸了。
先说重点:新版本在数学推理和代码生成上,**直接碾压GPT-4o**。HumanEval刷到92.1%,MATH得分88.8%,这两个数字什么意思?比旧版Sonnet涨了近10个点,比GPT-4o高5%左右。最离谱的是,它现在能跑通一些之前只有Claude 3 Opus才能搞定的复杂逻辑题。
**实测感受**:我拿几个LeetCode hard题试了下,旧版Sonnet经常卡在递归优化上,新版直接给出O(n)解法,还能解释归并排序的常数优化。写Python脚本时,连pytest测试用例都顺便生成了,省了我半小时手动mock。
**实用建议**:如果你在用Cursor或Copilot,可以切到Claude 3.5 Sonnet试两天。目前API价格没变($3/M输入,$15/M输出),推理成本比GPT-4o低30%左右。但注意,**长上下文(>32K)的稳定性还是不如GPT-4o**,写长篇代码建议分段输入。
别被营销号带节奏说“AI要替代程序员了”,这玩意儿就是个工具。但如果你做代码生成或复杂逻辑处理,今天值得切一下。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0