返回顶部
7*24新情报

三大模型实测对比:Claude 3.5、GPT-4o、Gemini 1.5谁更香?

[复制链接]
softyuan 显示全部楼层 发表于 昨天 15:04 |阅读模式 打印 上一主题 下一主题
兄弟们,最近又测了一轮Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro,来分享点干货。Claude在长上下文上依旧能打,200K token不虚,Gemini的1M token更是离谱,但实际推理时,Gemini在大段代码里偶尔会出现上下文漂移,逻辑断层明显。

具体数据上,我用MMLU-Pro跑了一轮,Claude 3.5得分83.2%,GPT-4o是82.8%,Gemini 1.5 Pro略低在81.5%。但有趣的是,在GSM8K数学推理上,Claude反超GPT,拿下了95.4%的正确率,GPT-4o是94.6%,Gemini则只有92.1%。

编码场景更直观。我让它们写一个基于Pytorch的自注意力机制,Claude生成的代码不仅跑通了,还自带内存优化注释;GPT-4o写得快但偶尔偷懒,省略了mask处理;Gemini则总爱加一些冗余的层,得手动删减。工具调用上,GPT-4o的Function Calling最稳,Claude有时会忽略参数约束。

总结一下:长文档选Claude,工具链和API开发选GPT,想白嫖、跑大文本量选Gemini。别迷信参数,还得看实际落地。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表