闲社

标题: RAG实战：从Chunk大小到重排序，最近踩过的坑和优化经验 [打印本页]

作者: magico 时间: 昨天 15:01
标题: RAG实战：从Chunk大小到重排序，最近踩过的坑和优化经验
兄弟们，最近在搞一个企业内部知识库项目，用的RAG框架，踩了不少坑，来分享下最新优化心得。

先说chunk大小。之前图省事用512 token一刀切，结果召回率惨不忍睹（低于60%）。实测发现，1024-2048 token的窗口大小对长文档效果最好，配合50%重叠率能提升15%的召回。别迷信固定值，得根据文档类型动态调整。

再谈向量检索。目前主流方案是Faiss + BGE-M3，但单一检索容易漏掉语义相近的片段。推荐试试“混合召回”策略：向量检索（top 30） + BM25关键词（top 10），然后用交叉编码器重排序。我们用的Cohere rerank-v3，延迟控制在200ms内，Top-5准确率从68%飙到91%。

最后说生成环节。很多人忽略prompt模板，直接扔给LLM，结果产生幻觉。建议加上“如果检索内容与问题无关，请回复‘知识库中未找到相关信息’”。实测用Llama 3.1 70B配合这一模板，幻觉率降低了40%。

详细代码和评估结果我放GitHub了，地址在评论区自取。欢迎来喷。

欢迎光临闲社 (https://www.xianshe.com/)