兄弟们,最近群里聊RAG的多了,但真正落地过的都知道——这玩意儿不是简单的“搜一下+喂给LLM”就能开香槟。翻车点太多了,今天先聊几个硬核的。
**1. 召回质量是命门**
别迷信向量相似度,尤其是短文本场景。你用openai的ada-002嵌入,搜出来top5可能全是噪音。正确姿势:先做query改写(比如用户问“昨天股价”,先补全为“某股票昨日的收盘价”),再用BM25+向量混合检索,命中率能提30%以上。
**2. 上下文窗口是隐形坑**
把一堆文档塞进prompt,LLM会“注意力涣散”。实测,gpt-4在8k窗口内,超过4k长度的相关片段,回答质量断崖下跌。建议用重排序模型(比如Cohere rerank)先精排top3,再喂LLM。
**3. 评估体系比模型重要**
很多团队只测BLEU/ROUGE,但RAG的关键是“是否引用正确来源”。自己写个脚本,对每个答案做“溯源率”统计——如果模型自己编造了文档里没有的信息,直接扣分。这不是RAG,是幻觉plus。
最后问个问题:你们在RAG里处理“多跳问题”时,是走多轮检索还是单次图遍历?分享下你的方案,别藏着掖着。 |