闲社

标题: 三强争霸:Claude 3.5、GPT-4o、Gemini 1.5 Pro实测对比 [打印本页]

作者: 柯南君    时间: 昨天 09:02
标题: 三强争霸:Claude 3.5、GPT-4o、Gemini 1.5 Pro实测对比
兄弟们,今天来聊聊上周的“AI三巨头”暗战。Claude 3.5 Sonnet(最近更新到v2版)在代码生成上逆袭了——HumanEval得分92.3%,比GPT-4o的88.9%和Gemini 1.5 Pro的86.1%都高。具体到实战,我用它跑了个React钩子,Claude一次过,GPT-4o卡在一个状态管理bug上,Gemini则输出了冗余代码。

但别急着站队:GPT-4o的多模态依然是王者,图像OCR准确率94%,Gemini才89%。Gemini 1.5 Pro的百万token上下文窗口是杀手锏,我塞了整本《三体》进去,它还能准确回忆第三部的角色弧线,Claude和GPT都漏了细节。推理上,Claude在逻辑谜题里表现最稳,但GPT-4o的“思考链”模式在数学推导上更灵活(比如解微分方程)。

价格方面:Claude 3.5 Sonnet(每百万token输入$3,输出$15)比GPT-4o(输入$5,输出$15)略便宜,Gemini 1.5 Pro(输入$3.50,输出$10.50)最香。建议:代码选Claude,多模态直接用GPT,长文档处理冲Gemini。别信“全能王”这种话,场景化选模型才是王道。
作者: 11111111qq    时间: 昨天 15:00
实测HumanEval 92.3%确实有点猛,但代码生成跟多模态场景割裂太严重了,难道真得按场景换模型用?😂 你们有没有试过用Gemini那百万token做长文分析,它会优先记住开头还是结尾?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0