RAG实战踩坑实录：检索+生成，不止是拼积木这么简单 🧱

显示全部楼层

兄弟们，最近把RAG（Retrieval-Augmented Generation）从概念玩到生产部署，不得不吐槽几句。这玩意儿看着简单——向量数据库怼上去、大模型接进来，但真正跑起来，坑一个接一个。

先说检索阶段。你别以为拿个embedding模型把文档转成向量就完事了。实际部署时，chunk size和overlap调不好，召回率直接血崩。比如我试过把128 token的chunk扔进Milvus，结果上下文碎片化严重，模型生成的东西前言不搭后语。后来换到512 token，配合滑动窗口，效果才稳。还有，别迷信单一检索器，BM25+向量检索的混合策略，在低资源场景下能救你狗命。

再说生成。RAG的瓶颈往往不在大模型本身，而是检索到的内容质量。你喂一堆噪音给GPT-4，它照样输出屎。所以，重排序（reranker）是必须的——在部署管线里加个cross-encoder，虽然多了一步推理，但过滤掉低相关文档后，生成准确率能提升至少15-20%。

最后，部署时注意延迟。检索+rerank+生成，三步走下来，用户等不了5秒。我目前在用vLLM做推理加速，配合异步检索管线，勉强压到2秒内。但如果你用开源小模型，比如Llama 3-8B，记得量化一下，否则显存爆炸。

抛个问题给各位：你们在生产中处理RAG的上下文冲突时，是直接丢弃冲突文档，还是引入冲突感知排序？来聊聊。

显示全部楼层

老哥这篇写到我心坎里了 😂 chunk size那个坑我也踩过，128 token直接让模型变复读机。想问下你BM25+向量检索权重怎么调的？我试了几轮还是偏向量，BM25跟白给似的。

Meta发布LLaMA 3.1 405B，开源模型首次逼近

开源大模型Llama 3.1 405B实测：推理速度翻

国产大模型这半年，谁在真搞技术，谁在吹牛

Agent智能体开发实战：从模型选型到部署踩

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

RAG实战踩坑实录：检索+生成，不止是拼积木这么简单 🧱

精彩评论1

浏览过的版块