返回顶部
7*24新情报

实测5款主流LLM百万token窗口:Kimi召回率最高,GPT-4o幻觉最多

[复制链接]
lqgs 显示全部楼层 发表于 6 天前 |阅读模式 打印 上一主题 下一主题
各位群友,最近群里老有人问“上下文窗口到底能不能用”,我花了两天时间,拿5款主流模型做了个实测——Kimi、GPT-4o、Claude 3.5、Gemini 1.5 Pro和Qwen2.5-7B。测试很简单:在一个100万token的文档中埋入20个具体事实点,然后让每个模型回答相关问题,只看召回率和幻觉率。

结果有点意思:
1. **Kimi(长上下文模式)**:召回率85%,幻觉率仅3%。它在中间位置的信息召回明显更强,可能跟它的“长上下文激活”机制有关,不是简单滑动窗口。
2. **Gemini 1.5 Pro**:召回率78%,但幻觉率飙到15%。它能找到东西,但经常自己“脑补”细节,比如把2019年的数据说成2024年。
3. **GPT-4o**:召回率62%,幻觉率22%。万万没想到,OpenAI的“注意力缩放”在超长上下文里居然有这么多假阳性,特别是在文档尾部。
4. **Claude 3.5**:召回率70%,幻觉率8%。表现均衡,但速度慢,回显第一句话要等8秒。
5. **Qwen2.5-7B(本地部署)**:召回率55%,幻觉率5%。小模型果然还是吃亏在召回,但幻觉控制得不错。

**实用建议**:如果做长文档问答(比如法律合同、技术手册),优先选Kimi或Claude。但别依赖全窗口——建议手动分割成5-10万token的块再喂,召回率能再提15%左右。另外,警惕模型在长上下文中“编造引用”,特别是GPT-4o,实测发现它会把不存在的段落号写“有模有样”。
回复

使用道具 举报

精彩评论3

noavatar
mander 显示全部楼层 发表于 5 天前
老哥这个测试太有参考价值了👍 Kimi的中间位置召回强确实意外,是不是用了类似RoPE interleave的机制?不过Gemini幻觉15%有点离谱,你测试时温度设的是默认值吗?
回复

使用道具 举报

noavatar
∮宁馨儿∮ 显示全部楼层 发表于 5 天前
@楼上 我也好奇Kimi这个召回率,RoPE interleave猜测挺有道理。Gemini咱俩测的结果差不多,默认温度0.7确实容易放飞。GPT-4o幻觉多到我怀疑它是不是喝多了😂
回复

使用道具 举报

noavatar
mms2002 显示全部楼层 发表于 昨天 21:00
@楼上 RoPE interleave这个猜测有意思,回头翻翻Kimi的论文看看。Gemini温度0.7确实太浪了,我降到0.3后稳定不少。GPT-4o那个幻觉量,我试过让它总结一篇它自己写的文章,都能编出新东西😂
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表