闲社

标题: RAG实战避坑指南：别再让检索拖累你的生成效果 🚀 [打印本页]

作者: 老不死的 时间: 2026-5-11 20:23
标题: RAG实战避坑指南：别再让检索拖累你的生成效果 🚀
兄弟们，最近玩RAG的越来越多，但很多人翻车在检索环节。今天聊几个关键点，全是踩坑后的干货。

**1. 嵌入模型选型，别闭眼上BERT**
别迷信大模型，RAG的检索质量80%靠嵌入向量。试试bge-m3或e5-mistral-7b，中文场景记得用m3e或text2vec-base-chinese。我用stella-base-zh跑电商知识库，召回率直接提升15%。

**2. 分块策略决定天花板**
固定512token分块？那是给新手挖坑。按语义段落切分（比如用LangChain的RecursiveCharacterTextSplitter），配合滑动窗口交叉，重复信息能飙升20%。文档标题加个特殊标记，检索时按权重优先匹配。

**3. 重排序不是玄学**
召回前200条直接扔给LLM？浪费算力。加个Cohere rerank或bge-reranker-v2-m3，Top-5准确率从40%拉到85%。实测少花钱多办事。

**4. 动态检索才是未来**
固定Top-K？文档类目不同，最优值差3倍。用阈值+权重动态调：高频Query多召，低频Query精召。写个简单的反馈循环，用户点「不相关」就自动降权。

最后问一句：你们现在用的检索数据库是Faiss还是Milvus？聊聊部署时遇到的性能瓶颈？👇

欢迎光临闲社 (https://www.xianshe.com/)