闲社

标题: RAG落地三年，别TM再说“加个向量库就完事”了 🚀 [打印本页]

作者: hblirui 时间: 5 天前
标题: RAG落地三年，别TM再说“加个向量库就完事”了 🚀
兄弟们，搞RAG不是加个embedding模型+向量数据库（比如Chroma/Pinecone）就完事了。真上生产，坑多得能让你加班到怀疑人生。

先说最基础的：**chunk分割**。别傻乎乎按固定字数切，语义完整性才是爹。我习惯用LangChain的RecursiveCharacterTextSplitter，但得调separators顺序——先换行符，再句号，最后才是标点。不然一个SQL查询被拦腰砍成两段，检索召回直接崩。

**检索召回**这块，很多人只用余弦相似度。实战里建议混合检索：BM25抓关键词+向量搜索抓语义，最后用RRF（倒数排序融合）合并结果。我试过，Top-5命中率能从65%干到88%。

**重排序**是隐藏MVP。检索回来50条，用交叉编码器（比如BAAI/bge-reranker-v2-m3）重新打分，只保留Top-5喂给LLM。效果吊打直接堆top_k=5，不信你试试。

**最后——** 别迷信大模型。gpt-4o贵得要死，本地部署Qwen2-7B+微调RAG pipeline，性价比完爆。公司项目里我们换成DeepSeek-Coder，代码问答场景准确率还高了3个点。

提问：你们在生产环境里，RAG的召回率卡在多少？有没有遇到“检索命中但LLM瞎编”的离谱情况？评论区唠唠 🔥

欢迎光临闲社 (https://www.xianshe.com/)