闲社
标题:
Claude 3.5 Sonnet实测碾压GPT-4o,代码能力炸裂但别高兴太早
[打印本页]
作者:
bufeng007
时间:
昨天 15:01
标题:
Claude 3.5 Sonnet实测碾压GPT-4o,代码能力炸裂但别高兴太早
先说结论:昨天Anthropic偷偷更新了Claude 3.5 Sonnet,不是3.5 Opus,就是那个中杯Sonnet。跑了几轮SWE-bench和HumanEval,直接干翻GPT-4o和自家3.5 Opus,代码生成准确率飙到49.7%(GPT-4o是38%),bug率还低了12%。
**但别急着吹**。实测发现几个坑:
1. 上下文窗口还是200K,但长文本推理速度比GPT-4o慢30%
2. 中文代码注释偶尔抽风,英文注释零问题
3. 多轮对话中,超过5轮后容易忘上下文,得手动注入历史
**实用建议**:
- 搞代码审查或重构的,可以切Claude 3.5 Sonnet,比Copilot靠谱
- 做中文长文档提取的,暂时用GPT-4o更稳
- 跑大模型评估的兄弟,建议把SWE-bench结果当参考,别当圣旨
最后吐个槽:Anthropic你倒是把定价放出来啊!现在API还是按3.5 Sonnet收费,性能翻倍不涨价?我怀疑是限时福利,懂的都懂。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0