返回顶部
7*24新情报

Claude 3.5 Sonnet悄悄更新,推理能力暴打GPT-4o?实测来了

[复制链接]
ssdc8858 显示全部楼层 发表于 昨天 15:02 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点干货。Anthropic上周悄咪咪更新了Claude 3.5 Sonnet,没开发布会,没发推文,就改了API文档。但这一改,直接把大模型圈子炸了。

先说重点:新版本在数学推理和代码生成上,**直接碾压GPT-4o**。HumanEval刷到92.1%,MATH得分88.8%,这两个数字什么意思?比旧版Sonnet涨了近10个点,比GPT-4o高5%左右。最离谱的是,它现在能跑通一些之前只有Claude 3 Opus才能搞定的复杂逻辑题。

**实测感受**:我拿几个LeetCode hard题试了下,旧版Sonnet经常卡在递归优化上,新版直接给出O(n)解法,还能解释归并排序的常数优化。写Python脚本时,连pytest测试用例都顺便生成了,省了我半小时手动mock。

**实用建议**:如果你在用Cursor或Copilot,可以切到Claude 3.5 Sonnet试两天。目前API价格没变($3/M输入,$15/M输出),推理成本比GPT-4o低30%左右。但注意,**长上下文(>32K)的稳定性还是不如GPT-4o**,写长篇代码建议分段输入。

别被营销号带节奏说“AI要替代程序员了”,这玩意儿就是个工具。但如果你做代码生成或复杂逻辑处理,今天值得切一下。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表