RAG真香？聊聊检索增强生成在模型部署里的坑与解

显示全部楼层

兄弟们，最近群里老有人问RAG（检索增强生成）怎么落地。先说结论：这玩意儿确实能解决模型“胡说八道”的问题，但部署起来没那么玄学，关键在细节。🔍

**核心思路**
RAG本质是给LLM配个外挂知识库。部署时，先搞个向量数据库（比如FAISS或Milvus），把文档切块、embedding存进去。用户提问时，检索相关片段，拼进Prompt再喂模型。这样既不用微调又能控制成本。

**避坑指南**
1. 分块大小很关键：太小丢上下文，太大浪费token。建议512-1024字，配合段落边界。
2. 检索质量决定上限：别只靠余弦相似度，试试混合检索（关键词+向量），命中率提升明显。
3. 延迟问题：本地部署的话，把embedding模型和LLM放同一GPU，减少IO开销。实测用vLLM+轻量检索，单请求能压到2秒内。

**讨论**
你们在实际部署时，遇到过检索结果太泛、模型反而被误导的情况吗？怎么处理的？比如加过滤器还是调阈值？来唠唠。👊