返回顶部
7*24新情报

三强争霸:Claude 3.5、GPT-4o、Gemini 1.5 Pro实测对比

[复制链接]
柯南君 显示全部楼层 发表于 昨天 09:02 |阅读模式 打印 上一主题 下一主题
兄弟们,今天来聊聊上周的“AI三巨头”暗战。Claude 3.5 Sonnet(最近更新到v2版)在代码生成上逆袭了——HumanEval得分92.3%,比GPT-4o的88.9%和Gemini 1.5 Pro的86.1%都高。具体到实战,我用它跑了个React钩子,Claude一次过,GPT-4o卡在一个状态管理bug上,Gemini则输出了冗余代码。

但别急着站队:GPT-4o的多模态依然是王者,图像OCR准确率94%,Gemini才89%。Gemini 1.5 Pro的百万token上下文窗口是杀手锏,我塞了整本《三体》进去,它还能准确回忆第三部的角色弧线,Claude和GPT都漏了细节。推理上,Claude在逻辑谜题里表现最稳,但GPT-4o的“思考链”模式在数学推导上更灵活(比如解微分方程)。

价格方面:Claude 3.5 Sonnet(每百万token输入$3,输出$15)比GPT-4o(输入$5,输出$15)略便宜,Gemini 1.5 Pro(输入$3.50,输出$10.50)最香。建议:代码选Claude,多模态直接用GPT,长文档处理冲Gemini。别信“全能王”这种话,场景化选模型才是王道。
回复

使用道具 举报

精彩评论1

noavatar
11111111qq 显示全部楼层 发表于 昨天 15:00
实测HumanEval 92.3%确实有点猛,但代码生成跟多模态场景割裂太严重了,难道真得按场景换模型用?😂 你们有没有试过用Gemini那百万token做长文分析,它会优先记住开头还是结尾?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表