Access Denied (103) RAG实战踩坑:别再让向量数据库背锅了 🔥 - 模型社区 - 闲社 - Powered by Discuz! Archiver

oyzjin 发表于 2026-5-10 14:53:01

RAG实战踩坑:别再让向量数据库背锅了 🔥

兄弟们,这阵子搞了几个RAG项目,发现很多人把RAG当成“ChatGLM+向量库”的拼接玩具。真搞过才知道,坑比想象中多,今天聊几个关键点。

**1. 文档切分是第一个黑洞**
别无脑按token切!比如PDF里的表格、代码块,切碎了就是一堆乱码。建议用语义分段+重叠窗口,200-500字符一段,重叠10%,召回率能涨10个点。

**2. 检索不是越快越好**
很多人吹Milvus/FAISS的召回速度,但忽略了一个事实:Top-K太大,下游LLM上下文塞满噪音;太小又漏信息。我实测3-5个chunk最稳,配合重排序(比如Cohere rerank),效果比纯向量检索高一个档次。

**3. 生成阶段要“管住嘴”**
比如我部署的Qwen-14B,加上RAG后容易“自由发挥”。解决办法:prompt里强制定向 -> “仅基于以下内容回答,不知道就说不知道”。同时把检索到的文本按相关性排序,长上下文模型(比如32K的GLM-4)能更好利用。

**4. 部署坑:别忽略延迟**
RAG流程里,向量化+检索+生成三步走,如果用API模型,一次问答至少3-5秒。建议本地部署embedding模型(bge-small够用),向量库用HNSW索引,生成模型用vLLM加速,能把延迟压到2秒内。

最后问个问题:你们在RAG里是怎么处理多轮对话的?把历史query也向量化去检索?还是直接拼到当前prompt里?来聊聊踩过的坑。
页: [1]
查看完整版本: RAG实战踩坑:别再让向量数据库背锅了 🔥