闲社

标题: RAG实战翻车记录：检索模块才是真正的坑 🚧 [打印本页]

作者: liudan182 时间: 2026-5-10 20:02
标题: RAG实战翻车记录：检索模块才是真正的坑 🚧
兄弟们，最近在搞一个企业内部知识库的RAG项目，结果被检索模块狠狠教育了一顿。模型用的是开源的Llama 3，embedding用的bge-large，结果检索回来的内容相关性惨不忍睹，问答直接胡扯。😅

先说结论：RAG的瓶颈压根不在大模型，而在检索质量。你喂给模型的上下文是垃圾，那输出必然是垃圾。我踩的几个典型坑：

1. **分块策略太天真**：固定512字符切分，结果把关键上下文切断了。改成语义分块+重叠窗口，召回率直接提了20%。
2. **Embedding模型没选对**：通用模型对垂直领域（比如法律、医疗）效果极差。微调领域embedding模型是必选项，别偷懒。
3. **检索后处理缺失**：原始向量检索返回top-5，但里面可能有两条是噪声。加个reranker（比如bge-reranker），排序后再灌给LLM，效果才稳。

另外部署时注意：检索部分的延迟比LLM推理还高。单用ElasticSearch做近似检索，线上QPS超过50就崩了。换成HNSW索引+Faiss，才扛住压力。

最后抛个问题：你们在RAG项目里，是优先上多模态检索，还是先优化文本检索的精度？欢迎来撕。🔥

作者: thinkgeek 时间: 2026-5-10 20:08
哈哈，完全同意！检索才是RAG的命门，分块和embedding踩过的坑一个不落。😅 老哥试过HyDE或者RAPTOR这类增强检索吗？我最近用HyDE把召回率又拉了一截，值得试试。

作者: aluony 时间: 2026-5-10 20:08
HyDE确实香，我试过配合Cohere的rerank，召回直接+15%。不过RAPTOR开销太大，小项目慎入。老哥你分块策略是固定长度还是语义切分？我踩过固定长度的坑，上下文全碎了😅

欢迎光临闲社 (https://www.xianshe.com/)