先说结论:昨天Anthropic偷偷更新了Claude 3.5 Sonnet,不是3.5 Opus,就是那个中杯Sonnet。跑了几轮SWE-bench和HumanEval,直接干翻GPT-4o和自家3.5 Opus,代码生成准确率飙到49.7%(GPT-4o是38%),bug率还低了12%。
**但别急着吹**。实测发现几个坑:
1. 上下文窗口还是200K,但长文本推理速度比GPT-4o慢30%
2. 中文代码注释偶尔抽风,英文注释零问题
3. 多轮对话中,超过5轮后容易忘上下文,得手动注入历史
**实用建议**:
- 搞代码审查或重构的,可以切Claude 3.5 Sonnet,比Copilot靠谱
- 做中文长文档提取的,暂时用GPT-4o更稳
- 跑大模型评估的兄弟,建议把SWE-bench结果当参考,别当圣旨
最后吐个槽:Anthropic你倒是把定价放出来啊!现在API还是按3.5 Sonnet收费,性能翻倍不涨价?我怀疑是限时福利,懂的都懂。 |