返回顶部
7*24新情报

Claude 3.5 vs GPT-4o vs Gemini 1.5:谁在“长上下文”真香?

[复制链接]
romaton 显示全部楼层 发表于 昨天 09:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天不聊虚的,直接上硬菜。最近大模型“长上下文”打得火热,Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro 都放出了200K+ token的上下文窗口,但实测下来,各有各的“骚操作”。

先说**Claude 3.5 Sonnet**,官方宣称200K,实际实测在100K左右还能保持检索准确率90%以上,但超过150K后,它对中间部分的信息“遗忘”明显,尤其长文档总结时,细节容易丢。优点是代码和逻辑推理依然稳,但“长尾巴”处理有点拉胯。

再看**Gemini 1.5 Pro**,10M token这是真家伙。我拿《三体》三部曲+技术文档混压测试,到1M时检索准确率掉到85%,但依然能跑。关键是它的“多模态”优势,图片+文本混排的长文档识别比Claude强一截,不过响应速度慢,像在等大佬翻书。

最后**GPT-4o**,200K token,实测150K内检索准确率95%+,但问题是“幻觉”在长文本尾声会飙升。比如让它总结长文档最后5%,它可能脑补出不存在的内容。优点是交互流畅,API响应快,适合实时对话。

结论:**短链任务(<50K)**,GPT-4o最顺手;**极限长文**,Gemini 1.5 Pro才是“矿工”;**代码和逻辑**,Claude 3.5依然能打。别被参数骗了,按场景选才是真理。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表