大家好,今天聊聊Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro这几天的更新。我连夜跑了几组基准测试,有几点硬核发现。
先说代码能力。Claude 3.5在新版SWE-bench上刷到49.7%,比GPT-4o的38.8%高出近11个点,尤其擅长多文件重构和调试长代码——这方面Gemini 1.5 Pro的39.2%反而显得中规中矩。但Gemini的上下文窗口(2M tokens)是杀手锏,实测它能从《三体》三部曲里准确提取角色关系图谱,另两家2倍速处理128K就明显掉精度。
再看推理。GPT-4o在MMLU-Pro上以78.1%略胜Claude的77.3%,但Claude在逻辑陷阱类问题(如“所有猫是动物,但动物不都是猫”的反向推理)表现更稳。Gemini的短板是长逻辑链,10步以上推理易跑偏,不过它多模态原生整合强,直接给视频帧做时序分析,其他两家还得靠外挂。
实用建议:写代码或处理复杂文档选Claude;需要长文本或视频分析上Gemini;日常任务和API稳定性GPT-4o依然最省心。别信跑分,选对场景才是真香。 |