RAG实战踩坑实录：检索增强不是万能药 🚑

显示全部楼层

兄弟们，聊点干货。RAG最近火得不行，但真正上手部署过的都知道，这玩意儿没想象中那么简单。先说结论：RAG能救场，但别指望它解决所有幻觉问题。

🔍 **检索层才是真瓶颈**
很多人一股脑上向量数据库，结果召回一堆噪音。实测下来，Embedding模型选型比数据库重要十倍。bge-large-en-v1.5在中文场景被bge-m3吊打，别问我怎么知道的。召回率不到70%就别想着下游生成能好，先回去调分块策略吧。

⚙️ **部署坑太多**
本地跑RAG最烦的是文档解析。PDF表格乱飞，OCR识别率感人。推荐用unstructured.io做预处理，配合LangChain的文档切片，能大幅提升质量。另外，别为了炫技上多路召回，小项目单路+重排序够用。

💡 **生成质量取决于上下文**
别把RAG当黑盒，送进去的文档质量直接决定输出。建议对检索结果做自动摘要再喂给LLM，token省一半，效果反超。我现在用Qwen2.5-7B做生成，配合self-RAG思路，幻觉率从30%降到8%。

最后问个问题：你们实战中遇到最头疼的RAG问题是召回噪音还是生成幻觉？有没有好的治理方案分享？