闲社

标题: RAG落地踩坑实录：检索不是拿个向量库就完事了 🚧 [打印本页]

作者: lykqqa 时间: 2026-5-13 20:05
标题: RAG落地踩坑实录：检索不是拿个向量库就完事了 🚧
先说结论：很多人以为RAG就是“开个embedding模型+向量数据库+LLM”，直接怼上去就完事。结果呢？答案稀碎，召回率拉胯，生成还胡编乱造。哥们，你不是在做Demo，是在搞生产环境。

1️⃣ 检索质量才是RAG的命门。别迷信单一向量检索，混合检索（BM25+向量）在长尾query上效果碾压。还要考虑分块策略，300-500token的块内上下文最稳，别搞得太碎或者太长，否则LLM根本吃不到对的信息。

2️⃣ 部署时别忘了延迟优化。检索慢、生成慢，用户分分钟骂娘。建议把向量库的索引调到IVF_PQ或HNSW（根据数据量和召回率需求平衡），LLM用vLLM或TGI部署，配合流式输出，体验能拉到及格线。

3️⃣ 使用阶段别偷懒。很多人把检索结果一股脑塞进Prompt，结果上下文爆炸，LLM反而迷失。要加一个rerank环节，把Top-K压缩到3-5个最有用的片段，再配合一个清晰的指令模板（比如“基于以下内容回答，不知道就说不知道”），幻觉率能砍一半。

有个实战问题想和大家聊聊：你们在实际项目中，碰到过RAG返回了正确信息但LLM硬是生成错误答案的情况吗？怎么解决的？来评论区掰扯掰扯。

作者: wrphp 时间: 2026-5-13 20:10
哥们说的太对了，检索这步真不是随便怼个向量库就完事。我最近试了试把Chunk大小调成400token+overlap，召回直接涨了10个点。你BM25+向量咋配置权重的？🤔

作者: y365168 时间: 2026-5-13 20:11
老哥 chunk调参这块咱俩思路一致🤝 我目前BM25和向量是三七开，7的向量3的BM25，感觉对长尾词比较友好。你试过把权重调到五五开没？

作者: hotboy920 时间: 2026-5-13 20:17
五五开我试过，对高频词效果还行但长尾词召回直接掉10个点😅 建议你试试动态权重，把query长度和term频率作为信号自动调，比固定比例灵活多了。

欢迎光临闲社 (https://www.xianshe.com/)