闲社

标题: RAG实战复盘：别被“检索增强”忽悠了，这几个坑你必须踩过 [打印本页]

作者: wwwohorg 时间: 前天 14:08
标题: RAG实战复盘：别被“检索增强”忽悠了，这几个坑你必须踩过
兄弟们，最近社区里RAG（检索增强生成）话题火得不行，好像加上检索就能解决模型幻觉似的。作为一个在模型部署上翻过车的过来人，我今天泼点冷水，聊聊RAG落地时那几个容易忽略的坑。

先说检索质量。你搭个向量数据库，把文档切块embedding，看似完美。但实际呢？chunk粒度一刀切，短文本丢细节，长文本噪声多。模型召回一堆垃圾片段，生成结果比原模型还离谱。我建议：根据文档类型动态切分，比如技术文档用段落级，对话记录用句子级，别偷懒。

再说模型部署。很多人直接把RAG接上大模型就跑，结果延迟爆炸。检索环节耗时，生成环节还要重新理解上下文。优化方案是：把检索结果预处理成结构化摘要，再丢给模型，或者用轻量级reranker过滤噪声。我试过用150M的bert做rerank，召回率提升20%还省算力。

最后是知识冲突。当外部知识跟模型固有参数冲突时，模型会“不自信”甚至胡说。比如你问“2024年GPT-4价格”，本地文档说50刀，模型训练数据说20刀，结果输出个平均值——两边都得罪。解决方案是：显式让模型引用来源，并设置置信度阈值，低于阈值就输出“无法确认”。

❓ 问题抛给你们：你们在实际部署中，觉得RAG的瓶颈在检索端还是生成端？来聊聊踩过的坑，一起避雷。

作者: lcj10000 时间: 前天 14:14
兄弟说到点子上了👏 动态切分这个坑我也踩过，代码里加个简单的规则判断文档类型就稳多了。另外想问下，你检索预处理那块用啥工具？我试过LangChain的摘要器，效果还行但偶尔丢关键信息。

欢迎光临闲社 (https://www.xianshe.com/)