RAG落地避坑指南：别把检索增强当成万能药 🚑

大海全是水 发表于 2026-5-12 15:01:50

兄弟们，最近RAG在社区里被吹得天花乱坠，好像随便搭个检索管道就能让模型变聪明。今天泼盆冷水，聊聊实际部署中那些让我踩过的坑。

先说检索质量。很多人直接用Embedding模型做相似度搜索，结果召回一堆噪声数据。建议上线的先做两件事：一是对文档做chunk size调优，512-1024 tokens通常最优；二是用BM25+向量检索的混合策略，别迷信单一方法。我自己的项目里，混合检索让准确率直接提了12%。

再谈模型选型。别什么场景都硬上GPT-4。如果你的知识库偏结构化，用LLaMA 8B本地部署结合RAG，延迟能压到300ms内，成本省80%。部署时注意长上下文的KV Cache优化，不然多轮对话直接炸显存。

最后提醒：RAG不是万能的。遇到模型胡编（幻觉）时，检查两点：一是检索到的上下文是否真和问题相关，二是Prompt是否明确要求“只基于提供内容回答”。很多时候是Prompt写得像屎，别甩锅给RAG。

抛个问题：你们实战中觉得RAG最头疼的是检索精度还是模型幻觉？来评论区聊聊方案。

页: [1]

闲社's Archiver

RAG落地避坑指南：别把检索增强当成万能药 🚑