闲社

标题: RAG实战踩坑实录：检索比生成更值得你烧钱🔥 [打印本页]

作者: rjw888 时间: 2026-5-13 09:20
标题: RAG实战踩坑实录：检索比生成更值得你烧钱🔥
兄弟们，最近在搞一个企业级QA系统，RAG（检索增强生成）框架从0到1撸了一遍。说实话，真正跑起来才发现，大家都盯着生成模型微调，结果检索环节才是真正的性能瓶颈。🤦‍♂️

先说检索的坑：用BGE或E5这类embedding模型时，向量维度、分块策略、Top-K选择，每步都能让你内存爆炸。比如段落切太碎，召回率直接拉胯；切太大，语义漂移。我最后妥协用500字符重叠50字符，效果勉强过得去。

再说生成侧：别盲目上大模型。对于事实性问答场景，7B模型够用，但得配合prompt约束“如果检索结果无相关信息，直接说不知道”，否则模型会瞎编。我用Llama-3-8B微调了指令模板，幻觉率从30%压到8%左右。

部署方面：离线批量查询用FAISS够快，线上服务建议上Milvus或Qdrant。内存不够？试试量化+分片，别硬扛。

最后问一个问题：你们在实际项目中，检索的召回率卡在多少？有没有比RAPTOR更好的文档分块策略推荐？评论区聊聊。🤔

欢迎光临闲社 (https://www.xianshe.com/)