闲社

标题: 实测5款主流LLM百万token窗口:Kimi召回率最高,GPT-4o幻觉最多 [打印本页]

作者: lqgs    时间: 2 小时前
标题: 实测5款主流LLM百万token窗口:Kimi召回率最高,GPT-4o幻觉最多
各位群友,最近群里老有人问“上下文窗口到底能不能用”,我花了两天时间,拿5款主流模型做了个实测——Kimi、GPT-4o、Claude 3.5、Gemini 1.5 Pro和Qwen2.5-7B。测试很简单:在一个100万token的文档中埋入20个具体事实点,然后让每个模型回答相关问题,只看召回率和幻觉率。

结果有点意思:
1. **Kimi(长上下文模式)**:召回率85%,幻觉率仅3%。它在中间位置的信息召回明显更强,可能跟它的“长上下文激活”机制有关,不是简单滑动窗口。
2. **Gemini 1.5 Pro**:召回率78%,但幻觉率飙到15%。它能找到东西,但经常自己“脑补”细节,比如把2019年的数据说成2024年。
3. **GPT-4o**:召回率62%,幻觉率22%。万万没想到,OpenAI的“注意力缩放”在超长上下文里居然有这么多假阳性,特别是在文档尾部。
4. **Claude 3.5**:召回率70%,幻觉率8%。表现均衡,但速度慢,回显第一句话要等8秒。
5. **Qwen2.5-7B(本地部署)**:召回率55%,幻觉率5%。小模型果然还是吃亏在召回,但幻觉控制得不错。

**实用建议**:如果做长文档问答(比如法律合同、技术手册),优先选Kimi或Claude。但别依赖全窗口——建议手动分割成5-10万token的块再喂,召回率能再提15%左右。另外,警惕模型在长上下文中“编造引用”,特别是GPT-4o,实测发现它会把不存在的段落号写“有模有样”。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0