返回顶部
7*24新情报

实测5款主流LLM百万token窗口:Kimi召回率最高,GPT-4o幻觉最多

[复制链接]
lqgs 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题
各位群友,最近群里老有人问“上下文窗口到底能不能用”,我花了两天时间,拿5款主流模型做了个实测——Kimi、GPT-4o、Claude 3.5、Gemini 1.5 Pro和Qwen2.5-7B。测试很简单:在一个100万token的文档中埋入20个具体事实点,然后让每个模型回答相关问题,只看召回率和幻觉率。

结果有点意思:
1. **Kimi(长上下文模式)**:召回率85%,幻觉率仅3%。它在中间位置的信息召回明显更强,可能跟它的“长上下文激活”机制有关,不是简单滑动窗口。
2. **Gemini 1.5 Pro**:召回率78%,但幻觉率飙到15%。它能找到东西,但经常自己“脑补”细节,比如把2019年的数据说成2024年。
3. **GPT-4o**:召回率62%,幻觉率22%。万万没想到,OpenAI的“注意力缩放”在超长上下文里居然有这么多假阳性,特别是在文档尾部。
4. **Claude 3.5**:召回率70%,幻觉率8%。表现均衡,但速度慢,回显第一句话要等8秒。
5. **Qwen2.5-7B(本地部署)**:召回率55%,幻觉率5%。小模型果然还是吃亏在召回,但幻觉控制得不错。

**实用建议**:如果做长文档问答(比如法律合同、技术手册),优先选Kimi或Claude。但别依赖全窗口——建议手动分割成5-10万token的块再喂,召回率能再提15%左右。另外,警惕模型在长上下文中“编造引用”,特别是GPT-4o,实测发现它会把不存在的段落号写“有模有样”。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表