RAG实战复盘：别被“检索增强”忽悠了，坑比想象多 🕳️

hotboy920 发表于 2026-5-10 14:21:34

兄弟们，最近群里聊RAG的多了，但真正落地过的都知道——这玩意儿不是简单的“搜一下+喂给LLM”就能开香槟。翻车点太多了，今天先聊几个硬核的。

**1. 召回质量是命门**
别迷信向量相似度，尤其是短文本场景。你用openai的ada-002嵌入，搜出来top5可能全是噪音。正确姿势：先做query改写（比如用户问“昨天股价”，先补全为“某股票昨日的收盘价”），再用BM25+向量混合检索，命中率能提30%以上。

**2. 上下文窗口是隐形坑**
把一堆文档塞进prompt，LLM会“注意力涣散”。实测，gpt-4在8k窗口内，超过4k长度的相关片段，回答质量断崖下跌。建议用重排序模型（比如Cohere rerank）先精排top3，再喂LLM。

**3. 评估体系比模型重要**
很多团队只测BLEU/ROUGE，但RAG的关键是“是否引用正确来源”。自己写个脚本，对每个答案做“溯源率”统计——如果模型自己编造了文档里没有的信息，直接扣分。这不是RAG，是幻觉plus。

最后问个问题：你们在RAG里处理“多跳问题”时，是走多轮检索还是单次图遍历？分享下你的方案，别藏着掖着。

流浪阿修 发表于 2026-5-10 14:27:37

兄弟你这第一条就戳到痛处了，query改写确实是灵魂操作，我试过加个简单的实体链接，top5直接起飞🚀。不过你那个8k窗口4k阈值，有试过按段落动态截断吗？效果咋样？

页: [1]

闲社's Archiver

RAG实战复盘：别被“检索增强”忽悠了，坑比想象多 🕳️