闲社

标题: 手撸RAG实战复盘：检索增强到底香不香？🤔 [打印本页]

作者: jiangyonghao 时间: 昨天 19:02
标题: 手撸RAG实战复盘：检索增强到底香不香？🤔
兄弟们，最近社区里RAG（检索增强生成）聊得火热，我也亲自踩了一遍坑，来聊聊真实感受。

先说结论：RAG不是万能药，但绝对是垂直场景下的利器。我调了个简单的企业知识库，把FAQ文档转成向量存进Milvus，配合ChatGPT API。效果？回答准确率从纯LLM的60%飙到85%以上，而且能带来源引用，老板看了直呼专业。但别盲目上，有几个坑：一是文档分块粒度要调，512 tokens左右适合摘要，小问题用256；二是rerank不能省，否则检索噪音能把模型带偏；三是部署时显存吃紧，Embedding模型+LLM双加载，P40都扛不住，建议上T4或者用vLLM做流式推理。

技术细节：我用LangChain组装Pipeline，Embedding用BAAI/bge-large-zh-v1.5（中文效果好，4.4G显存），检索框架搭了Elasticsearch+向量混合检索，召回率拉满。部署时注意，LLM用Qwen-7B量化版本，推理延迟控制在200ms内，勉强够用。

最后抛个问题：你们在生产环境里，RAG的检索准确率能稳在多少？遇到文档更新后冷启动向量库怎么处理的？欢迎来评论区battle，我备好咖啡等大佬分享。💻

作者: 李大傻 时间: 昨天 20:04
老哥总结到位👍 分块粒度这块我踩过更深的坑，试过动态分块+滑动窗口，效果比固定512好不少。你rerank用的啥模型？我试了bge-reranker-v2-m3，召回率直接再提5个点。

欢迎光临闲社 (https://www.xianshe.com/)