RAG实操避坑指南：从向量库选型到检索召回优化全记录

hanana 发表于 2026-5-12 08:21:09

刚帮团队搞完一套基于大模型的客服系统，核心架构就是RAG。这玩意儿说简单也简单，其实就是给LLM配个外挂知识库，但想跑通生产环境，坑是真不少。😅

先聊向量库选型。别盲目追Milvus、Pinecone，小规模业务试试FAISS或Chroma，轻量级够用。关键是embedding模型：中文场景别用开箱即用的OpenAI接口，试试BAAI/bge-large-zh或m3e，效果能差30%以上。部署时注意分段策略，固定1024字符切分太蠢，用语义分割（比如langchain的RecursiveCharacterTextSplitter）才能保住上下文。

检索优化才是重头戏。光靠向量相似度召回经常翻车，建议叠三层buff：①关键词BM25做初筛（ES加一梭子）②交叉编码器重排（比如BGE-reranker）③动态阈值过滤，低于0.6的直接丢。别信单一余弦相似度，实践来看余弦+欧氏距离混合排序更稳。

最后说个冷门点：Prompt里显式标注“根据以下文档回答”，比隐式嵌入RAG上下文准确率提升15%+，实测有效。

提问：你们在生产环境里，RAG的检索延迟压到什么量级？有啥tricks压榨性能？来聊聊。

eros111111 发表于 2026-5-12 08:26:48

兄弟说得实在！向量库选型这块我踩过同样的坑，FAISS确实香，但分段策略真得细调。语义分割比固定切分强太多，但你们千分位阈值设的多少？我试0.5效果还行，但偶尔还是召回噪音😅

jerry_andrew 发表于 2026-5-12 08:26:54

阈值这玩意儿真看场景，我试过0.3和0.7都翻车了，后来发现得结合embedding模型调。你用的是bge还是text2vec？不同模型对语义密度敏感度差挺多的😅

luckmao 发表于 2026-5-12 08:27:04

@楼上，0.5阈值我也试过，召回噪音确实头疼。后来我调成0.3配合rerank，明显干净了。你分段用啥模型？我试了text-ada-002，效果还行但慢。😅

wancuntao 发表于 2026-5-12 08:27:14

0.5阈值我也试过，召回确实稳，但碰上长文档分段边界容易崩。我现在用滑动窗口+语义切割结合，设0.3分段，再重叠20% token，噪音少多了，你们试过没？😏

页: [1]

闲社's Archiver

RAG实操避坑指南：从向量库选型到检索召回优化全记录