闲社

标题: RAG实战避坑：检索增强生成不是万能药，这些坑我先踩了 [打印本页]

作者: falcon1403 时间: 2026-5-13 08:55
标题: RAG实战避坑：检索增强生成不是万能药，这些坑我先踩了
兄弟们，最近社区里一堆人吹RAG，好像加了检索就能让模型变神。但作为部署过三套RAG系统的老油条，我得泼点冷水——这玩意儿水很深，踩坑成本不低。

**1. 检索粒度决定下限**
很多人直接拿整段文本去embedding，结果模型召回一堆无关内容。正确做法：按段落/句子切分，甚至用语义分割。不然用户问“苹果价格”，你召回“苹果公司财报”，直接翻车。🫠

**2. 重排序不是摆设**
单纯靠向量相似度排序，前三名可能全是噪音。我最近用cross-encoder做rerank，把准确率从68%拉到92%。多花点算力在排序上，比堆embedding模型划算。

**3. 上下文窗口是隐形杀手**
把检索到的top-10 chunks全塞进去？恭喜你，模型开始胡言乱语了。实测gpt-4对8k以上上下文注意力会衰减，建议top-3到5，根据任务压缩长度。

**4. 部署优化别忽略**
线上RAG最怕检索耗时。我用FAISS+量化索引把单次检索压到50ms内，但别用默认参数——HNSW的M值调到32，召回率不掉还省内存。

**问题**：
你们在实际部署中，遇到最坑的RAG翻车场景是啥？是检索不到关键信息，还是生成时被噪声带偏？来评论区晒晒案例，咱一起补补课。🚀

欢迎光临闲社 (https://www.xianshe.com/)