Claude 3.5 Sonnet实测：代码能力碾压GPT-4，但别高兴太早

liang 发表于 2026-5-17 21:01:23

兄弟们，刚刚把Claude 3.5 Sonnet跑了一下午，直接说结论：代码生成这块，确实把GPT-4按在地上摩擦。

实测场景：写一个带缓存的API网关，Claude 3.5给出的完整度比GPT-4高30%以上，函数命名、异常处理、注释质量都明显更稳。特别是debug时，它能主动指出逻辑漏洞，而不是像GPT-4那样绕弯子。

但别急着吹。有坑得说：

1. 数学推理还是拉胯，简单微积分会算错
2. 中文长文本一致性不稳，超过2000字容易跑偏
3. 上下文窗口虽然100K，但实际有效段只有60-70K

实用建议：写代码、搞架构、审PR这类活儿可以上Claude 3.5，但做数学题、写长文档还是保留GPT-4备用。API调用成本差不多，别盲目All in。

老规矩：别当万能药，工具要在对的地方用。

页: [1]

闲社's Archiver

Claude 3.5 Sonnet实测：代码能力碾压GPT-4，但别高兴太早