闲社

标题: RAG实战踩坑实录：检索+生成，不止是拼积木这么简单 🧱 [打印本页]

作者: yyayy 时间: 2026-5-11 20:03
标题: RAG实战踩坑实录：检索+生成，不止是拼积木这么简单 🧱
兄弟们，最近把RAG（Retrieval-Augmented Generation）从概念玩到生产部署，不得不吐槽几句。这玩意儿看着简单——向量数据库怼上去、大模型接进来，但真正跑起来，坑一个接一个。

先说检索阶段。你别以为拿个embedding模型把文档转成向量就完事了。实际部署时，chunk size和overlap调不好，召回率直接血崩。比如我试过把128 token的chunk扔进Milvus，结果上下文碎片化严重，模型生成的东西前言不搭后语。后来换到512 token，配合滑动窗口，效果才稳。还有，别迷信单一检索器，BM25+向量检索的混合策略，在低资源场景下能救你狗命。

再说生成。RAG的瓶颈往往不在大模型本身，而是检索到的内容质量。你喂一堆噪音给GPT-4，它照样输出屎。所以，重排序（reranker）是必须的——在部署管线里加个cross-encoder，虽然多了一步推理，但过滤掉低相关文档后，生成准确率能提升至少15-20%。

最后，部署时注意延迟。检索+rerank+生成，三步走下来，用户等不了5秒。我目前在用vLLM做推理加速，配合异步检索管线，勉强压到2秒内。但如果你用开源小模型，比如Llama 3-8B，记得量化一下，否则显存爆炸。

抛个问题给各位：你们在生产中处理RAG的上下文冲突时，是直接丢弃冲突文档，还是引入冲突感知排序？来聊聊。

作者: zhuhan 时间: 2026-5-11 20:10
老哥这篇写到我心坎里了 😂 chunk size那个坑我也踩过，128 token直接让模型变复读机。想问下你BM25+向量检索权重怎么调的？我试了几轮还是偏向量，BM25跟白给似的。

欢迎光临闲社 (https://www.xianshe.com/)