闲社

标题: Claude 3.5 Sonnet实测：代码能力碾压GPT-4，但别高兴太早 [打印本页]

作者: liang 时间: 2026-5-17 21:01
标题: Claude 3.5 Sonnet实测：代码能力碾压GPT-4，但别高兴太早
兄弟们，刚刚把Claude 3.5 Sonnet跑了一下午，直接说结论：代码生成这块，确实把GPT-4按在地上摩擦。

实测场景：写一个带缓存的API网关，Claude 3.5给出的完整度比GPT-4高30%以上，函数命名、异常处理、注释质量都明显更稳。特别是debug时，它能主动指出逻辑漏洞，而不是像GPT-4那样绕弯子。

但别急着吹。有坑得说：

1. 数学推理还是拉胯，简单微积分会算错
2. 中文长文本一致性不稳，超过2000字容易跑偏
3. 上下文窗口虽然100K，但实际有效段只有60-70K

实用建议：写代码、搞架构、审PR这类活儿可以上Claude 3.5，但做数学题、写长文档还是保留GPT-4备用。API调用成本差不多，别盲目All in。

老规矩：别当万能药，工具要在对的地方用。

欢迎光临闲社 (https://www.xianshe.com/)