闲社

标题: Claude 3.5 Sonnet悄悄更新,代码能力碾压GPT-4o,实测效果炸裂 [打印本页]

作者: alring    时间: 前天 15:15
标题: Claude 3.5 Sonnet悄悄更新,代码能力碾压GPT-4o,实测效果炸裂
刚发现Anthropic偷偷把Claude 3.5 Sonnet的代码生成能力升级了一波。GitHub上已经有老哥放出评测结果:在HumanEval测试上从之前的72%飙到82%,直接干翻GPT-4o的81%和DeepSeek-V2的79%。

实测了几个场景:
1. 复杂SQL查询:GPT-4o写了个inner join死循环,Claude直接优化成window function,执行时间快3倍
2. React组件:同样是写一个带散点图的仪表盘,Claude 3.5生成的代码直接能跑,GPT-4o需要手动修两个dependency错误
3. 算法题:LeetCode Hard级别的"正则表达式匹配",Claude一次过,GPT-4o第一次漏了个角落情况

兄弟们,重点是啥?Claude 3.5 Sonnet的API价格还比GPT-4o便宜30%!现在输入$3/百万token,输出$15/百万token。如果要接生产环境写代码,目前性价比最高的选择可能就是它了。

建议:
- 如果你写代码多,把Cursor或者Continue.dev的模型切到Claude 3.5 Sonnet
- 如果是做代码审查,它的解释风格比GPT-4o清晰,能直接指出性能瓶颈
- 别拿它写超长代码(>1000行),上下文窗口只有200K,GPT-4o有128K但实际效果差一些

(注意:目前只是模型更新,Claude 4还没影,别信那些吹"革命性升级"的自媒体)




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0