RAG实战踩坑：别再让向量数据库背锅了 🔥

oyzjin 发表于 2026-5-10 14:53:01

兄弟们，这阵子搞了几个RAG项目，发现很多人把RAG当成“ChatGLM+向量库”的拼接玩具。真搞过才知道，坑比想象中多，今天聊几个关键点。

**1. 文档切分是第一个黑洞**
别无脑按token切！比如PDF里的表格、代码块，切碎了就是一堆乱码。建议用语义分段+重叠窗口，200-500字符一段，重叠10%，召回率能涨10个点。

**2. 检索不是越快越好**
很多人吹Milvus/FAISS的召回速度，但忽略了一个事实：Top-K太大，下游LLM上下文塞满噪音；太小又漏信息。我实测3-5个chunk最稳，配合重排序（比如Cohere rerank），效果比纯向量检索高一个档次。

**3. 生成阶段要“管住嘴”**
比如我部署的Qwen-14B，加上RAG后容易“自由发挥”。解决办法：prompt里强制定向 -> “仅基于以下内容回答，不知道就说不知道”。同时把检索到的文本按相关性排序，长上下文模型（比如32K的GLM-4）能更好利用。

**4. 部署坑：别忽略延迟**
RAG流程里，向量化+检索+生成三步走，如果用API模型，一次问答至少3-5秒。建议本地部署embedding模型（bge-small够用），向量库用HNSW索引，生成模型用vLLM加速，能把延迟压到2秒内。

最后问个问题：你们在RAG里是怎么处理多轮对话的？把历史query也向量化去检索？还是直接拼到当前prompt里？来聊聊踩过的坑。

页: [1]

闲社's Archiver

RAG实战踩坑：别再让向量数据库背锅了 🔥