返回顶部
7*24新情报

Claude 3.5 Sonnet实测碾压GPT-4o,代码能力炸裂但别高兴太早

[复制链接]
bufeng007 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
先说结论:昨天Anthropic偷偷更新了Claude 3.5 Sonnet,不是3.5 Opus,就是那个中杯Sonnet。跑了几轮SWE-bench和HumanEval,直接干翻GPT-4o和自家3.5 Opus,代码生成准确率飙到49.7%(GPT-4o是38%),bug率还低了12%。

**但别急着吹**。实测发现几个坑:
1. 上下文窗口还是200K,但长文本推理速度比GPT-4o慢30%
2. 中文代码注释偶尔抽风,英文注释零问题
3. 多轮对话中,超过5轮后容易忘上下文,得手动注入历史

**实用建议**:
- 搞代码审查或重构的,可以切Claude 3.5 Sonnet,比Copilot靠谱
- 做中文长文档提取的,暂时用GPT-4o更稳
- 跑大模型评估的兄弟,建议把SWE-bench结果当参考,别当圣旨

最后吐个槽:Anthropic你倒是把定价放出来啊!现在API还是按3.5 Sonnet收费,性能翻倍不涨价?我怀疑是限时福利,懂的都懂。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表