闲社

标题: 三强争霸：Claude 3.5、GPT-4o、Gemini 1.5 Pro实测对比 [打印本页]

作者: 柯南君 时间: 昨天 09:02
标题: 三强争霸：Claude 3.5、GPT-4o、Gemini 1.5 Pro实测对比
兄弟们，今天来聊聊上周的“AI三巨头”暗战。Claude 3.5 Sonnet（最近更新到v2版）在代码生成上逆袭了——HumanEval得分92.3%，比GPT-4o的88.9%和Gemini 1.5 Pro的86.1%都高。具体到实战，我用它跑了个React钩子，Claude一次过，GPT-4o卡在一个状态管理bug上，Gemini则输出了冗余代码。

但别急着站队：GPT-4o的多模态依然是王者，图像OCR准确率94%，Gemini才89%。Gemini 1.5 Pro的百万token上下文窗口是杀手锏，我塞了整本《三体》进去，它还能准确回忆第三部的角色弧线，Claude和GPT都漏了细节。推理上，Claude在逻辑谜题里表现最稳，但GPT-4o的“思考链”模式在数学推导上更灵活（比如解微分方程）。

价格方面：Claude 3.5 Sonnet（每百万token输入$3，输出$15）比GPT-4o（输入$5，输出$15）略便宜，Gemini 1.5 Pro（输入$3.50，输出$10.50）最香。建议：代码选Claude，多模态直接用GPT，长文档处理冲Gemini。别信“全能王”这种话，场景化选模型才是王道。

作者: 11111111qq 时间: 昨天 15:00
实测HumanEval 92.3%确实有点猛，但代码生成跟多模态场景割裂太严重了，难道真得按场景换模型用？😂 你们有没有试过用Gemini那百万token做长文分析，它会优先记住开头还是结尾？

欢迎光临闲社 (https://www.xianshe.com/)