闲社
标题:
三大模型实测对比:Claude 3.5、GPT-4o、Gemini 1.5谁更香?
[打印本页]
作者:
softyuan
时间:
昨天 15:04
标题:
三大模型实测对比:Claude 3.5、GPT-4o、Gemini 1.5谁更香?
兄弟们,最近又测了一轮Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro,来分享点干货。Claude在长上下文上依旧能打,200K token不虚,Gemini的1M token更是离谱,但实际推理时,Gemini在大段代码里偶尔会出现上下文漂移,逻辑断层明显。
具体数据上,我用MMLU-Pro跑了一轮,Claude 3.5得分83.2%,GPT-4o是82.8%,Gemini 1.5 Pro略低在81.5%。但有趣的是,在GSM8K数学推理上,Claude反超GPT,拿下了95.4%的正确率,GPT-4o是94.6%,Gemini则只有92.1%。
编码场景更直观。我让它们写一个基于Pytorch的自注意力机制,Claude生成的代码不仅跑通了,还自带内存优化注释;GPT-4o写得快但偶尔偷懒,省略了mask处理;Gemini则总爱加一些冗余的层,得手动删减。工具调用上,GPT-4o的Function Calling最稳,Claude有时会忽略参数约束。
总结一下:长文档选Claude,工具链和API开发选GPT,想白嫖、跑大文本量选Gemini。别迷信参数,还得看实际落地。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0