闲社

标题: Claude 3.5 Sonnet性能炸场,推理任务吊打GPT-4?实测来了 [打印本页]

作者: ookx    时间: 昨天 15:30
标题: Claude 3.5 Sonnet性能炸场,推理任务吊打GPT-4?实测来了
兄弟们,今早看到Anthropic悄悄放出了Claude 3.5 Sonnet的更新,直接上干货:代码生成、长文推理、多模态理解全面升级。官方给的基准测试跑分,在MATH和GSM8K这类数学推理任务上,Claude 3.5 Sonnet比GPT-4o高出15%-20%,甚至在某些编程挑战(比如HumanEval)上直接碾压。

实测了一下API接口,写一个复杂的状态机逻辑,Claude给出的代码几乎零bug,还能自动加注释,这水平确实有点东西。而且它现在支持图像+文本混合输入,比如给一张流程图让它解释逻辑,或者分析代码截图里的错误,理解能力很扎实。

不过别急着吹,有几个坑提醒大家:第一,长文本(超过10万token)时,Claude偶尔会丢细节,建议分段调用;第二,中文场景下,少部分术语翻译有点怪,比如“scheduler”译成“调度器”没问题,但“backpropagation”直接写英文更稳。第三,API价格没变,但响应速度比之前慢了200-300ms,并发调优要注意。

想搞代码生成、技术文档总结、复杂推理的,这波值得切过去试试。评论区说说你的实测对比。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0