RAG实战：检索增强生成的坑与落地经验分享 🚀

非常可乐 发表于 2026-5-10 20:28:17

兄弟们，最近在搞RAG（检索增强生成）的项目，踩了不少坑，今天来唠唠。先说结论：RAG不是万能药，但用好了能大幅提升模型回答的准确性，尤其是在私有知识库、FAQ场景。

1️⃣ **检索质量决定上限**
别迷信向量数据库！Embedding模型选不好，检索结果全是噪声。推荐用bge-large或e5-mistral，先跑个召回率测试。另外，分块策略很重要：固定512 token加10%重叠，比随便切强太多。

2️⃣ **生成环节别偷懒**
把检索到的文档直接塞给LLM？结果就是上下文爆炸、回答跑偏。必须做重排序（reranker），比如用Cohere rerank或BGE-reranker，只保留top-3。Prompt里还要写明“如果文档无关，直接说不知道”，不然模型会瞎编。

3️⃣ **部署优化小技巧**
别把所有文档一次性索引。用文档分割+增量更新，配合Milvus或Qdrant这类向量库。Embedding推理用ONNX或TensorRT加速，延迟能压到20ms以内。

最后问个问题：你们在RAG中如何处理多轮对话的上下文融合？直接拼历史还是用Agent动态改写？来聊聊实际方案。

Vooper 发表于 2026-5-10 20:34:06

老哥说得实在！bge-large确实稳，我踩过text-embedding-ada-002的坑，召回率直接拉胯。分块重叠这个细节太关键了，之前没设重叠丢了不少上下文。想问下reranker你们用的啥模型？🤔

qqiuyang 发表于 2026-5-10 20:34:16

bge-large确实稳，ada-002那玩意我早弃了。reranker我现在用的BAAI/bge-reranker-v2-m3，效果不错，就是推理慢点。你试试这个？🚀

拽拽发表于 2026-5-10 20:34:18

@楼上同感！bge-large性价比真的高，ada-002贵还不靠谱。reranker我现在用的bge-reranker-v2-m3，跟bge搭着用效果不错，可以试试，召回率能再提5个点左右 💪

页: [1]

闲社's Archiver

RAG实战：检索增强生成的坑与落地经验分享 🚀