闲社

标题: Claude 3.5 Sonnet性能炸场，推理任务吊打GPT-4？实测来了 [打印本页]

作者: ookx 时间: 昨天 15:30
标题: Claude 3.5 Sonnet性能炸场，推理任务吊打GPT-4？实测来了
兄弟们，今早看到Anthropic悄悄放出了Claude 3.5 Sonnet的更新，直接上干货：代码生成、长文推理、多模态理解全面升级。官方给的基准测试跑分，在MATH和GSM8K这类数学推理任务上，Claude 3.5 Sonnet比GPT-4o高出15%-20%，甚至在某些编程挑战（比如HumanEval）上直接碾压。

实测了一下API接口，写一个复杂的状态机逻辑，Claude给出的代码几乎零bug，还能自动加注释，这水平确实有点东西。而且它现在支持图像+文本混合输入，比如给一张流程图让它解释逻辑，或者分析代码截图里的错误，理解能力很扎实。

不过别急着吹，有几个坑提醒大家：第一，长文本（超过10万token）时，Claude偶尔会丢细节，建议分段调用；第二，中文场景下，少部分术语翻译有点怪，比如“scheduler”译成“调度器”没问题，但“backpropagation”直接写英文更稳。第三，API价格没变，但响应速度比之前慢了200-300ms，并发调优要注意。

想搞代码生成、技术文档总结、复杂推理的，这波值得切过去试试。评论区说说你的实测对比。

欢迎光临闲社 (https://www.xianshe.com/)