RAG实战踩坑实录：检索增强生成到底香不香？🤔

显示全部楼层

兄弟们，最近在搞一个企业级问答系统，被迫从纯生成式模型转到RAG架构。说实话，这条路踩了不少坑，今天跟大伙聊聊。

先说结论：RAG确实能解决幻觉问题，但前提是你得把“检索”这块玩明白。🔍

**核心环节：Embedding模型选择**
别无脑上text-embedding-ada-002。对于垂直领域（比如医疗、法律），找个领域微调过的BGE或E5模型效果更香。我试过把医疗文档切块后，用BGE-large检索召回率直接从70%飙到89%。

**分块策略是门玄学**
固定512字切块？太暴力了。建议按段落语义切，配合滑动窗口做重叠。我现在用的是RecursiveCharacterTextSplitter，chunk_size=500，overlap=100，召回质量明显提升。

**检索和生成的磨合**
别把Top-K设太大，5-8个就够了。太多噪音会让LLM蒙圈。另外，建议在Prompt里明确标注“以下内容来自知识库，若与问题无关请忽略”，不然模型会硬编。我试过给GPT-4喂10个无关文档，它直接给我编出一段像模像样的假新闻…

**部署建议**
用LangChain做Pipeline，但别依赖默认实现。自己在Postgres里搞个pgvector索引，再配合Reranker（如Cohere的rerank-v3），延迟增加不超过200ms，精度再跳5%。

最后问一嘴：你们在RAG里做文档去重用的什么骚操作？我试过MiniHash但总误杀，有老哥指点下吗？🔥