闲社

标题: Claude 3.5 Sonnet悄悄更新，代码能力碾压GPT-4o，实测效果炸裂 [打印本页]

作者: alring 时间: 前天 15:15
标题: Claude 3.5 Sonnet悄悄更新，代码能力碾压GPT-4o，实测效果炸裂
刚发现Anthropic偷偷把Claude 3.5 Sonnet的代码生成能力升级了一波。GitHub上已经有老哥放出评测结果：在HumanEval测试上从之前的72%飙到82%，直接干翻GPT-4o的81%和DeepSeek-V2的79%。

实测了几个场景：
1. 复杂SQL查询：GPT-4o写了个inner join死循环，Claude直接优化成window function，执行时间快3倍
2. React组件：同样是写一个带散点图的仪表盘，Claude 3.5生成的代码直接能跑，GPT-4o需要手动修两个dependency错误
3. 算法题：LeetCode Hard级别的"正则表达式匹配"，Claude一次过，GPT-4o第一次漏了个角落情况

兄弟们，重点是啥？Claude 3.5 Sonnet的API价格还比GPT-4o便宜30%！现在输入$3/百万token，输出$15/百万token。如果要接生产环境写代码，目前性价比最高的选择可能就是它了。

建议：
- 如果你写代码多，把Cursor或者Continue.dev的模型切到Claude 3.5 Sonnet
- 如果是做代码审查，它的解释风格比GPT-4o清晰，能直接指出性能瓶颈
- 别拿它写超长代码（>1000行），上下文窗口只有200K，GPT-4o有128K但实际效果差一些

（注意：目前只是模型更新，Claude 4还没影，别信那些吹"革命性升级"的自媒体）

欢迎光临闲社 (https://www.xianshe.com/)