闲社

标题: Claude 3.5 Sonnet实测碾压GPT-4o，代码能力炸裂但别高兴太早 [打印本页]

作者: bufeng007 时间: 2026-5-18 15:01
标题: Claude 3.5 Sonnet实测碾压GPT-4o，代码能力炸裂但别高兴太早
先说结论：昨天Anthropic偷偷更新了Claude 3.5 Sonnet，不是3.5 Opus，就是那个中杯Sonnet。跑了几轮SWE-bench和HumanEval，直接干翻GPT-4o和自家3.5 Opus，代码生成准确率飙到49.7%（GPT-4o是38%），bug率还低了12%。

**但别急着吹**。实测发现几个坑：
1. 上下文窗口还是200K，但长文本推理速度比GPT-4o慢30%
2. 中文代码注释偶尔抽风，英文注释零问题
3. 多轮对话中，超过5轮后容易忘上下文，得手动注入历史

**实用建议**：
- 搞代码审查或重构的，可以切Claude 3.5 Sonnet，比Copilot靠谱
- 做中文长文档提取的，暂时用GPT-4o更稳
- 跑大模型评估的兄弟，建议把SWE-bench结果当参考，别当圣旨

最后吐个槽：Anthropic你倒是把定价放出来啊！现在API还是按3.5 Sonnet收费，性能翻倍不涨价？我怀疑是限时福利，懂的都懂。

欢迎光临闲社 (https://www.xianshe.com/)