RAG实战笔记：检索增强不是挂个向量库就完事了 🚀

显示全部楼层

兄弟们，最近跑了不少RAG项目，发现一个扎心事实：**很多人以为RAG = LLM + 向量数据库，怼上去就完事了，结果召回一堆垃圾，模型胡言乱语。** 今天就唠点干的。

先说检索这关。别迷信“高维向量”，embedding模型选不好，语义相似度跑偏，检索出来的文档可能跟query压根不在一个频道。比如你要查“训练损失爆炸”，结果它给你召回“模型部署优化”，直接GG。所以，**预处理阶段的文档切片粒度、元数据标注、混合检索（向量+关键词）才是真功夫**，别偷懒。

再说生成。RAG的核心是“增强”，不是“投喂”。检索到的上下文里往往有噪音，模型容易跑偏或产生幻觉。**必须做rerank（重排序）**，把最相关的几段怼进prompt，并且明确告诉模型“只基于下列内容回答，不知道就说不知道”。另外，注意token限制，超长上下文会稀释有效信息。

最后，部署时注意延迟。检索+rerank+生成，三步下来响应时间容易超标。建议用异步框架或者缓存高频query的检索结果，别让用户等得骂娘。

**你们在实际项目中，是更头疼检索质量，还是模型对着正确文档依然幻觉乱飞？** 来，评论区Battle一波。