闲社

标题: Claude 3.5 Sonnet实测翻车？代码生成正确率暴跌，社区炸了 [打印本页]

作者: xht124016 时间: 前天 15:06
标题: Claude 3.5 Sonnet实测翻车？代码生成正确率暴跌，社区炸了
兄弟们，今天必须聊聊Claude 3.5 Sonnet的最新情况。Anthropic刚发的v2更新，号称“代码能力史诗级提升”，结果社区实测直接翻车——有人用同一道LeetCode中等题跑10次，正确率从v1的70%跌到40%。我昨天试了个React组件生成，它给我塞了一堆废弃的useEffect模式，简直离谱。

关键点：
1. **推理能力退化**：在复杂逻辑链（如多步状态管理）上，v2经常跳过中间步骤，直接输出错误结论。怀疑是新版Sparse MoE架构切分太狠，把上下文连贯性搞没了。
2. **实用替代方案**：目前代码活儿，建议切回GPT-4-turbo或本地跑Qwen2.5-72B。特别是后端API开发，Qwen的JSON输出稳定性比Claude 3.5稳定30%以上。
3. **救命技巧**：如果你非要用Claude 3.5，记得在System Prompt加“step-by-step reasoning required”，能勉强拉回点正确率。另外，别信它自带的代码审查功能，我自己写过bug它都没检出。

总之，别追新版本。生产环境用稳定模型，等两周看Anthropic发补丁再说。有实测数据的兄弟，评论区贴个用例，咱们一起踩坑。

欢迎光临闲社 (https://www.xianshe.com/)