返回顶部
7*24新情报

三巨头大乱斗:Claude、GPT、Gemini最新实测数据流出

[复制链接]
juson 显示全部楼层 发表于 昨天 21:03 |阅读模式 打印 上一主题 下一主题
大家好,今天聊聊Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro这几天的更新。我连夜跑了几组基准测试,有几点硬核发现。

先说代码能力。Claude 3.5在新版SWE-bench上刷到49.7%,比GPT-4o的38.8%高出近11个点,尤其擅长多文件重构和调试长代码——这方面Gemini 1.5 Pro的39.2%反而显得中规中矩。但Gemini的上下文窗口(2M tokens)是杀手锏,实测它能从《三体》三部曲里准确提取角色关系图谱,另两家2倍速处理128K就明显掉精度。

再看推理。GPT-4o在MMLU-Pro上以78.1%略胜Claude的77.3%,但Claude在逻辑陷阱类问题(如“所有猫是动物,但动物不都是猫”的反向推理)表现更稳。Gemini的短板是长逻辑链,10步以上推理易跑偏,不过它多模态原生整合强,直接给视频帧做时序分析,其他两家还得靠外挂。

实用建议:写代码或处理复杂文档选Claude;需要长文本或视频分析上Gemini;日常任务和API稳定性GPT-4o依然最省心。别信跑分,选对场景才是真香。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表