Access Denied (103) Claude 3.5 Sonnet实测:代码能力碾压GPT-4,但别高兴太早 - 模型社区 - 闲社 - Powered by Discuz! Archiver

liang 发表于 7 天前

Claude 3.5 Sonnet实测:代码能力碾压GPT-4,但别高兴太早

兄弟们,刚刚把Claude 3.5 Sonnet跑了一下午,直接说结论:代码生成这块,确实把GPT-4按在地上摩擦。

实测场景:写一个带缓存的API网关,Claude 3.5给出的完整度比GPT-4高30%以上,函数命名、异常处理、注释质量都明显更稳。特别是debug时,它能主动指出逻辑漏洞,而不是像GPT-4那样绕弯子。

但别急着吹。有坑得说:

1. 数学推理还是拉胯,简单微积分会算错
2. 中文长文本一致性不稳,超过2000字容易跑偏
3. 上下文窗口虽然100K,但实际有效段只有60-70K

实用建议:写代码、搞架构、审PR这类活儿可以上Claude 3.5,但做数学题、写长文档还是保留GPT-4备用。API调用成本差不多,别盲目All in。

老规矩:别当万能药,工具要在对的地方用。
页: [1]
查看完整版本: Claude 3.5 Sonnet实测:代码能力碾压GPT-4,但别高兴太早