闲社

标题: 三大模型实测对比：Claude 3.5、GPT-4o、Gemini 1.5谁更香？ [打印本页]

作者: softyuan 时间: 昨天 15:04
标题: 三大模型实测对比：Claude 3.5、GPT-4o、Gemini 1.5谁更香？
兄弟们，最近又测了一轮Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro，来分享点干货。Claude在长上下文上依旧能打，200K token不虚，Gemini的1M token更是离谱，但实际推理时，Gemini在大段代码里偶尔会出现上下文漂移，逻辑断层明显。

具体数据上，我用MMLU-Pro跑了一轮，Claude 3.5得分83.2%，GPT-4o是82.8%，Gemini 1.5 Pro略低在81.5%。但有趣的是，在GSM8K数学推理上，Claude反超GPT，拿下了95.4%的正确率，GPT-4o是94.6%，Gemini则只有92.1%。

编码场景更直观。我让它们写一个基于Pytorch的自注意力机制，Claude生成的代码不仅跑通了，还自带内存优化注释；GPT-4o写得快但偶尔偷懒，省略了mask处理；Gemini则总爱加一些冗余的层，得手动删减。工具调用上，GPT-4o的Function Calling最稳，Claude有时会忽略参数约束。

总结一下：长文档选Claude，工具链和API开发选GPT，想白嫖、跑大文本量选Gemini。别迷信参数，还得看实际落地。

欢迎光临闲社 (https://www.xianshe.com/)