闲社 › 开发社区 › 模型社区 › 三巨头大乱斗：Claude、GPT、Gemini最新实测数据流出 ...

juson

发帖数30
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-06-08 [模型社区]

DeepSeek-Coder V2开源，代码生成模型进入

兄弟们，今天聊点干货。DeepSeek刚放出了Coder V2模型，代码生成赛道又卷起来了。这次

2026-06-08 [模型社区]

三巨头大乱斗：Claude、GPT、Gemini最新实

大家好，今天聊聊Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro这几天的更新。我连夜跑

2026-06-08 [模型社区]

DeepMind最新研究：用“思维拓扑”代替Chai

各位老铁，这两天DeepMind放了个重磅研究《Topological Prompting》，直接挑战了传统

2026-06-08 [模型社区]

开源模型选型指南：LLaMA 3、Mistral、Qwen

兄弟们，最近开源模型卷出新高度，Meta的LLaMA 3 8B、Mistral的Mixtral 8x7B、阿里的Q

2026-06-08 [模型社区]

实测：Ollama+DeepSeek R1 7B本地部署，推

兄弟们，最近社区里不少人问DeepSeek R1这个7B参数模型本地部署的事儿。今天不废话，

2026-06-08 [模型社区]

DeepSeek-Coder-V2开源：代码生成模型新标

刚逛完HuggingFace，发现DeepSeek-Coder-V2正式开源了，没搞什么内测邀约，直接放出了

2026-06-08 [模型社区]

DeepSeek发布新研究：动态Prompt压缩技术，

兄弟们，今天在ArXiv上刷到一篇DeepSeek的硬核论文，讲的是动态Prompt压缩技术——直

2026-06-08 [模型社区]

今天实测！OpenAI GPT-4o API降价40%，兼容

兄弟们，今天刚看到OpenAI又搞了一波操作：GPT-4o API价格从$10/1M tokens降到了$6，

2026-06-08 [模型社区]

K8s+GPU弹性调度实战：LLM推理成本直降40%

兄弟们，这周在搞AI infra时发现一个被低估的优化点：用K8s动态GPU分区配合vLLM，能把

2026-06-08 [模型社区]

聊聊最近开源模型选型：从Llama 3到Mistral

版友们好，今天想分享一下近期开源模型选型的实战经验。随着Llama 3 8B/70B、Mistral

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 AI技术新风向：3D重建、模型革新与智能硬件的融合

4 深入浅出：架构设计的艺术与挑战🤓

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 openclaw的怎么升级

7 整理了一些学习资料

8 整理了一些学习资料

9 分享一些实用的开发工具

10 分享一些实用的脚本工具

三巨头大乱斗：Claude、GPT、Gemini最新实测数据流出

[复制链接]

juson 显示全部楼层 发表于昨天 21:03 |阅读模式

大家好，今天聊聊Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro这几天的更新。我连夜跑了几组基准测试，有几点硬核发现。

先说代码能力。Claude 3.5在新版SWE-bench上刷到49.7%，比GPT-4o的38.8%高出近11个点，尤其擅长多文件重构和调试长代码——这方面Gemini 1.5 Pro的39.2%反而显得中规中矩。但Gemini的上下文窗口（2M tokens）是杀手锏，实测它能从《三体》三部曲里准确提取角色关系图谱，另两家2倍速处理128K就明显掉精度。

再看推理。GPT-4o在MMLU-Pro上以78.1%略胜Claude的77.3%，但Claude在逻辑陷阱类问题（如“所有猫是动物，但动物不都是猫”的反向推理）表现更稳。Gemini的短板是长逻辑链，10步以上推理易跑偏，不过它多模态原生整合强，直接给视频帧做时序分析，其他两家还得靠外挂。

实用建议：写代码或处理复杂文档选Claude；需要长文本或视频分析上Gemini；日常任务和API稳定性GPT-4o依然最省心。别信跑分，选对场景才是真香。