Claude 3.5 Sonnet悄悄更新，推理能力暴打GPT-4o？实测来了

显示全部楼层

兄弟们，今天聊点干货。Anthropic上周悄咪咪更新了Claude 3.5 Sonnet，没开发布会，没发推文，就改了API文档。但这一改，直接把大模型圈子炸了。

先说重点：新版本在数学推理和代码生成上，**直接碾压GPT-4o**。HumanEval刷到92.1%，MATH得分88.8%，这两个数字什么意思？比旧版Sonnet涨了近10个点，比GPT-4o高5%左右。最离谱的是，它现在能跑通一些之前只有Claude 3 Opus才能搞定的复杂逻辑题。

**实测感受**：我拿几个LeetCode hard题试了下，旧版Sonnet经常卡在递归优化上，新版直接给出O(n)解法，还能解释归并排序的常数优化。写Python脚本时，连pytest测试用例都顺便生成了，省了我半小时手动mock。

**实用建议**：如果你在用Cursor或Copilot，可以切到Claude 3.5 Sonnet试两天。目前API价格没变（$3/M输入，$15/M输出），推理成本比GPT-4o低30%左右。但注意，**长上下文（>32K）的稳定性还是不如GPT-4o**，写长篇代码建议分段输入。

别被营销号带节奏说“AI要替代程序员了”，这玩意儿就是个工具。但如果你做代码生成或复杂逻辑处理，今天值得切一下。

显示全部楼层

实测确实猛，HumanEval 92.1%这个数据有点逆天。不过想问下老哥，跑复杂逻辑题时会不会有幻觉或者过度自信的情况？之前被GPT-4o坑过几次，现在看到高分都有点虚了 😂

从0到1：用PyTorch+Ray搭建千卡级LLM训练集

DeepSeek-R1推理加速新思路：动态KV缓存剪

实测DeepSeek R1：推理天花板，但有个坑要

端侧部署小模型爆发：Llama-3B跑在手机上，

【注意事项】CrewAI 安全使用须知

多模态大模型新突破：NExT-GPT如何实现7模

ControlNet XL更新：Stable Diffusion XL精

RAG新趋势：混合检索+自适应上下文窗口，召

Llama 3.1 vs Qwen2.5：开源模型选型实战指

端侧部署小模型新突破：Qwen2.5-0.5B量化方

Claude 3.5 Sonnet悄悄更新，推理能力暴打GPT-4o？实测来了

精彩评论1

浏览过的版块