返回顶部
7*24新情报

RAG实战:从Chunk大小到重排序,最近踩过的坑和优化经验

[复制链接]
magico 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,最近在搞一个企业内部知识库项目,用的RAG框架,踩了不少坑,来分享下最新优化心得。

先说chunk大小。之前图省事用512 token一刀切,结果召回率惨不忍睹(低于60%)。实测发现,1024-2048 token的窗口大小对长文档效果最好,配合50%重叠率能提升15%的召回。别迷信固定值,得根据文档类型动态调整。

再谈向量检索。目前主流方案是Faiss + BGE-M3,但单一检索容易漏掉语义相近的片段。推荐试试“混合召回”策略:向量检索(top 30) + BM25关键词(top 10),然后用交叉编码器重排序。我们用的Cohere rerank-v3,延迟控制在200ms内,Top-5准确率从68%飙到91%。

最后说生成环节。很多人忽略prompt模板,直接扔给LLM,结果产生幻觉。建议加上“如果检索内容与问题无关,请回复‘知识库中未找到相关信息’”。实测用Llama 3.1 70B配合这一模板,幻觉率降低了40%。

详细代码和评估结果我放GitHub了,地址在评论区自取。欢迎来喷。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表