闲社 › 开发社区 › 模型社区 › Claude 3.5 vs GPT-4o vs Gemini 1.5：谁在“长上下文” ...

romaton

发帖数11
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-06-07 [模型社区]

Llama-3 8B微调性能翻倍：NeMo Aligner + F

兄弟们，今天聊聊Meta最新放出的一个大招——用NeMo Aligner对Llama-3 8B做微调，配合

2026-06-07 [模型社区]

RAG技术新突破：混合检索+动态上下文压缩，

今天社区讨论最火的话题，莫过于RAG（检索增强生成）的最新优化方案。刚看到一篇来自A

2026-06-07 [模型社区]

实测vLLM+FP8推理：显存占用直降40%，吞吐

兄弟们，今天不扯虚的，直接上干货。最近我在搞大模型部署，发现AI基础设施里最头疼的

2026-06-07 [模型社区]

GPTQ之后，AWQ和Bitsandbytes联手了？聊聊4

兄弟们，今天咱不聊虚的，直接上干货。最近社区里对模型量化的讨论又热起来了，特别是

2026-06-07 [模型社区]

实测打脸：大模型上下文窗口，真能用到长文

兄弟们，最近我把几个主流大模型的「理论上下文窗口」拉到极限测了一遍，结果有点扎心

2026-06-07 [模型社区]

Meta发布Chameleon多模态模型：混合模态统

兄弟们，今天聊聊Meta刚刚开源的Chameleon（变色龙）系列多模态大模型。这玩意儿让我

2026-06-07 [模型社区]

StarCoder2新版本发布：15B参数在代码生成

兄弟们，今天聊点硬的。Hugging Face和ServiceNow联合发布的StarCoder2最近更新了15B

2026-06-07 [模型社区]

本地部署Qwen2.5-72B，8卡3090实测推理速度

兄弟们，今天聊聊大模型本地部署的新进展。刚测完Qwen2.5-72B在8张RTX 3090上的推理效

2026-06-07 [模型社区]

开源模型选型避坑指南：从Llama3到Qwen2，

兄弟们，最近社区里又炸了——Qwen2-72B刚发布，Llama3-70B也更新了，不少人在问“选

2026-06-07 [模型社区]

多模态大模型进阶：Fuyu-8B开源，架构颠覆

兄弟们，今天聊点硬的。Adept AI刚开源了Fuyu-8B，这玩意儿直接干掉了传统多模态架构

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 深入浅出：架构设计的艺术与挑战🤓

4 AI技术新风向：3D重建、模型革新与智能硬件的融合

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 openclaw的怎么升级

7 整理了一些学习资料

8 整理了一些学习资料

9 分享一些实用的开发工具

10 分享一些实用的脚本工具

Claude 3.5 vs GPT-4o vs Gemini 1.5：谁在“长上下文”真香？

[复制链接]

romaton 显示全部楼层 发表于昨天 09:01 |阅读模式

兄弟们，今天不聊虚的，直接上硬菜。最近大模型“长上下文”打得火热，Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro 都放出了200K+ token的上下文窗口，但实测下来，各有各的“骚操作”。

先说**Claude 3.5 Sonnet**，官方宣称200K，实际实测在100K左右还能保持检索准确率90%以上，但超过150K后，它对中间部分的信息“遗忘”明显，尤其长文档总结时，细节容易丢。优点是代码和逻辑推理依然稳，但“长尾巴”处理有点拉胯。

再看**Gemini 1.5 Pro**，10M token这是真家伙。我拿《三体》三部曲+技术文档混压测试，到1M时检索准确率掉到85%，但依然能跑。关键是它的“多模态”优势，图片+文本混排的长文档识别比Claude强一截，不过响应速度慢，像在等大佬翻书。

最后**GPT-4o**，200K token，实测150K内检索准确率95%+，但问题是“幻觉”在长文本尾声会飙升。比如让它总结长文档最后5%，它可能脑补出不存在的内容。优点是交互流畅，API响应快，适合实时对话。

结论：**短链任务（<50K）**，GPT-4o最顺手；**极限长文**，Gemini 1.5 Pro才是“矿工”；**代码和逻辑**，Claude 3.5依然能打。别被参数骗了，按场景选才是真理。