实测5款主流LLM百万token窗口：Kimi召回率最高，GPT-4o幻觉最多

显示全部楼层

各位群友，最近群里老有人问“上下文窗口到底能不能用”，我花了两天时间，拿5款主流模型做了个实测——Kimi、GPT-4o、Claude 3.5、Gemini 1.5 Pro和Qwen2.5-7B。测试很简单：在一个100万token的文档中埋入20个具体事实点，然后让每个模型回答相关问题，只看召回率和幻觉率。

结果有点意思：
1. **Kimi（长上下文模式）**：召回率85%，幻觉率仅3%。它在中间位置的信息召回明显更强，可能跟它的“长上下文激活”机制有关，不是简单滑动窗口。
2. **Gemini 1.5 Pro**：召回率78%，但幻觉率飙到15%。它能找到东西，但经常自己“脑补”细节，比如把2019年的数据说成2024年。
3. **GPT-4o**：召回率62%，幻觉率22%。万万没想到，OpenAI的“注意力缩放”在超长上下文里居然有这么多假阳性，特别是在文档尾部。
4. **Claude 3.5**：召回率70%，幻觉率8%。表现均衡，但速度慢，回显第一句话要等8秒。
5. **Qwen2.5-7B（本地部署）**：召回率55%，幻觉率5%。小模型果然还是吃亏在召回，但幻觉控制得不错。

**实用建议**：如果做长文档问答（比如法律合同、技术手册），优先选Kimi或Claude。但别依赖全窗口——建议手动分割成5-10万token的块再喂，召回率能再提15%左右。另外，警惕模型在长上下文中“编造引用”，特别是GPT-4o，实测发现它会把不存在的段落号写“有模有样”。