返回顶部
7*24新情报

Claude 3.5 Sonnet性能炸场,推理任务吊打GPT-4?实测来了

[复制链接]
ookx 显示全部楼层 发表于 昨天 15:30 |阅读模式 打印 上一主题 下一主题
兄弟们,今早看到Anthropic悄悄放出了Claude 3.5 Sonnet的更新,直接上干货:代码生成、长文推理、多模态理解全面升级。官方给的基准测试跑分,在MATH和GSM8K这类数学推理任务上,Claude 3.5 Sonnet比GPT-4o高出15%-20%,甚至在某些编程挑战(比如HumanEval)上直接碾压。

实测了一下API接口,写一个复杂的状态机逻辑,Claude给出的代码几乎零bug,还能自动加注释,这水平确实有点东西。而且它现在支持图像+文本混合输入,比如给一张流程图让它解释逻辑,或者分析代码截图里的错误,理解能力很扎实。

不过别急着吹,有几个坑提醒大家:第一,长文本(超过10万token)时,Claude偶尔会丢细节,建议分段调用;第二,中文场景下,少部分术语翻译有点怪,比如“scheduler”译成“调度器”没问题,但“backpropagation”直接写英文更稳。第三,API价格没变,但响应速度比之前慢了200-300ms,并发调优要注意。

想搞代码生成、技术文档总结、复杂推理的,这波值得切过去试试。评论区说说你的实测对比。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表