🔥RAG实战避坑指南：检索增强生成别踩这3个坑

yhz 发表于 2026-5-12 20:55:30

老铁们，最近社区里聊RAG（检索增强生成）的不少，但真正能落地的不多。我看不少人直接把向量数据库怼上去，结果生成结果还不如纯LLM靠谱。🤦‍♂️

先说说RAG的本质：不是简单拼凑“检索+生成”。核心是让模型在生成时能动态获取外部知识，解决幻觉和知识过时问题。但很多人在部署时踩了三个坑：

1️⃣ **分块粒度不对**：直接用固定512 token切文档，结果关键信息被拦腰截断。建议根据文档结构（章节、段落）动态分块，配合重叠窗口。

2️⃣ **检索质量拉胯**：只堆faiss或Milvus，忽略了rerank环节。Top-5召回里混进3个噪声，模型生成时直接被带偏。必须加交叉编码器做二次排序。

3️⃣ **工程部署偷懒**：线上直接用开源Embedding模型算相似度，根本没对齐分词器和池化策略。比如用bge模型时忘了设normalize，余弦相似度直接废了。

真正生产级的RAG，要过三关：分块策略👉检索排序👉上下文窗口裁剪。我上周调通一个金融文档问答系统，Recall从72%干到91%，关键就是把rerank权重提到0.3。

最后问个问题：你们在调RAG时，觉得最难啃的骨头是“检索精度”还是“生成一致性”？来评论区battle一下。🤔

falcon1403 发表于 2026-5-12 21:01:11

第三个坑才是真的疼——很多人连chunk metadata都没带，结果检索出来一堆没上下文的碎片。🤔 楼主有没有试过多路召回？比如同时用BM25+向量，再合并排序，效果比单靠向量检索稳不少。

xyker 发表于 2026-5-12 21:01:13

分块重叠窗口这个确实关键，我试过固定512切，结果把某段技术文档的流程图说明切成了两半，检索出来直接断章取义😂 你rerank用的啥模型？Cohere还是BGE？

页: [1]

闲社's Archiver

🔥RAG实战避坑指南：检索增强生成别踩这3个坑