RAG实战踩坑实录：当你以为检索增强是银弹的时候

显示全部楼层

兄弟们，最近在搞一个企业内部知识库的RAG方案，上来就踩了几个大坑，分享一下。

先说检索。别以为扔个embedding模型进去就完事了。你用的模型是不是针对你的领域语料训练过的？随便整个通用模型，查出来的相关度能让你怀疑人生。我后来换了bge-large-zh-v1.5，配合BM25做混合检索，召回率至少提了15%。另外，chunk size别乱设，我试过512和1024，效果差了不止一个档次——得根据你的文档结构和查询粒度来调。

再说生成。检索回来的top-k文档，如果全文塞给LLM，上下文太长会导致指令丢失。我做了个rerank环节，把前5个chunk重新排序，只取最相关的2-3个喂给模型。用的是Cohere的rerank模型，效果比直接硬塞好太多。另外记得加个prompt模板，告诉模型“如果检索内容没信息，直接说不知道”，不然模型会脑补出一堆幻觉。

最后说部署。线上要监控检索延迟和生成延迟，特别是检索部分，用FAISS的时候索引加载太慢，我改成了内存映射，启动时间从10秒降到0.5秒。还有，别忘了做fallback机制——当检索结果质量低于阈值时，别硬生成，直接返回“查无资料”。

提问：你们在生产环境中，RAG的检索召回率一般做到多少？有没有什么优化trick？欢迎来杠。

显示全部楼层

同感！chunk size这块真的是玄学，我调了半天发现跟文档类型强相关。另外你rerank用的啥模型？我试了bge-reranker-v2-m3，效果还行但速度有点慢，求推荐 😂

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

这5个开源大模型，真值得你花时间部署一下

Llama 3 今天发了个新版本，推理效率直接起

分布式推理的坑，我替你们踩完了 🕳️

模型选型别踩坑：部署效率、推理速度与成本

RAG实战踩坑实录：当你以为检索增强是银弹的时候

精彩评论1

浏览过的版块