闲社 › 开发社区 › 模型社区 › 三大模型实测对比：Claude 3.5、GPT-4o、Gemini 1.5谁更 ...

softyuan

发帖数6
粉丝0

此人很懒，什么也没有留下

语音合成大模型新突破：Seed-TTS复现，零样本克隆仅需3秒音频 ...

阅读Ta更多精彩帖

7*24新情报

2026-06-05 [模型社区]

GPT-4o Prompt优化实战：用三层指令框架将

兄弟们，今天聊点硬核的。最近我在搞GPT-4o的Prompt工程实验，发现一个超级实用的技术

2026-06-05 [模型社区]

大模型API接入避坑指南：延迟、成本与多模

兄弟们，今天聊点实在的——大模型API接入。上周我们团队刚把一套多模态任务从GPT-4切

2026-06-05 [模型社区]

用LoRA微调Llama 3搞了个客服机器人，准确

社区老铁们，最近搞了个实战案例，拿Llama 3 8B微调做电商客服，效果出乎意料地好。直

2026-06-05 [模型社区]

Prompt工程新进展：Meta发布Chain-of-Thoug

今天圈子里热议的是Meta在arxiv上刚更新的论文，他们搞了个升级版链式提示（CoT 2.0）

2026-06-05 [模型社区]

语音合成大模型新突破：Seed-TTS复现，零样

兄弟们，今天聊点干货！昨天Meta开源了ChatTTS的升级版——Seed-TTS复现模型（基于原

2026-06-05 [模型社区]

三大模型实测对比：Claude 3.5、GPT-4o、Ge

兄弟们，最近又测了一轮Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro，来分享点干货。C

2026-06-05 [模型社区]

128K上下文全用满？实测Claude/GPT-4/Kimi

兄弟们，今天聊聊上下文窗口这个老生常谈但实战总翻车的话题。厂商宣传动不动128K、20

2026-06-05 [模型社区]

多模态大模型新突破：LLaVA-NeXT-Interleav

兄弟们，多模态大模型又有硬核更新了。最近LLaVA团队放出了LLaVA-NeXT-Interleave，直

2026-06-05 [模型社区]

模型蒸馏新范式：DeepSeek-R1用5%参数量复

兄弟们，今天聊个硬核的——模型蒸馏。这玩意儿不是新概念，但最近DeepSeek开源的技术

2026-06-05 [模型社区]

三大模型对决：Claude 3.5 vs GPT-4o vs Ge

兄弟们，今天来聊聊三个顶流模型的最新表现。我实测了几个关键场景，直接上干货，不废

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 深入浅出：架构设计的艺术与挑战🤓

4 AI技术新风向：3D重建、模型革新与智能硬件的融合

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 openclaw的怎么升级

7 整理了一些学习资料

8 整理了一些学习资料

9 分享一些实用的开发工具

10 AI赛道新动态：3D重建、具身智能与模型革命

三大模型实测对比：Claude 3.5、GPT-4o、Gemini 1.5谁更香？

[复制链接]

softyuan 显示全部楼层 发表于昨天 15:04 |阅读模式

兄弟们，最近又测了一轮Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro，来分享点干货。Claude在长上下文上依旧能打，200K token不虚，Gemini的1M token更是离谱，但实际推理时，Gemini在大段代码里偶尔会出现上下文漂移，逻辑断层明显。

具体数据上，我用MMLU-Pro跑了一轮，Claude 3.5得分83.2%，GPT-4o是82.8%，Gemini 1.5 Pro略低在81.5%。但有趣的是，在GSM8K数学推理上，Claude反超GPT，拿下了95.4%的正确率，GPT-4o是94.6%，Gemini则只有92.1%。

编码场景更直观。我让它们写一个基于Pytorch的自注意力机制，Claude生成的代码不仅跑通了，还自带内存优化注释；GPT-4o写得快但偶尔偷懒，省略了mask处理；Gemini则总爱加一些冗余的层，得手动删减。工具调用上，GPT-4o的Function Calling最稳，Claude有时会忽略参数约束。

总结一下：长文档选Claude，工具链和API开发选GPT，想白嫖、跑大文本量选Gemini。别迷信参数，还得看实际落地。