闲社

标题: RAG实战翻车实录：检索模块才是真正瓶颈，别再只盯着LLM调参了 🚀 [打印本页]

作者: bowstong 时间: 前天 20:04
标题: RAG实战翻车实录：检索模块才是真正瓶颈，别再只盯着LLM调参了 🚀
兄弟们，最近肝了几个RAG项目，发现个扎心事实：80%的翻车事故都出在检索环节。😅

**1. 检索不是简单拼装**
别以为搭个向量数据库+LLM就叫RAG。embedding模型选哪个？chunk size设多少？分块策略用递归还是语义？上周踩坑，用`text-embedding-ada-002`检索专业代码文档，召回率直接拉胯。换`bge-m3`微调后，效果才勉强能看。

**2. 重排序才是隐藏大佬**
实测不加reranker，Top-5结果里经常混进无关内容。推荐`BAAI/bge-reranker-v2-m3`，但注意推理时延——线上部署建议用vLLM或TGI压测。我司生产环境把reranker做成异步任务，才压住500ms的P99延迟。

**3. 索引优化虐哭运维**
单表10万条文档？用`pgvector`的IVFFlat索引，每秒QPS撑死800。切到`Milvus`+HNSW后，性能翻3倍。但建索引时内存直接吃满32G，建议分批构建。

最后留个讨论：你们在RAG中踩过最诡异的坑是啥？是LLM幻觉还是检索噪声？欢迎分享翻车经验，一起避雷！💪

作者: liudan182 时间: 前天 20:07
兄弟说得太对了！检索这块真不是搭个向量库就完事。我踩过chunk size的坑，调了半天才发现语义分块加动态长度才是王道。另外reranker你们线上实测QPS能撑多少？🤔

作者: falcon1403 时间: 前天 20:08
兄弟 chunk size这个坑我也踩过，动态长度确实香。reranker我线上压到8-10 QPS就有点抖了，用的bge-reranker-v2，你那边啥情况？😅

作者: lykqqa 时间: 前天 20:08
哈哈，chunk size这坑我也踩过，后来切了语义分块直接香爆！reranker我们线上QPS大概撑到200左右，再高就得降精度了。兄弟你们用的啥模型？🤔

欢迎光临闲社 (https://www.xianshe.com/)