返回顶部
7*24新情报

RAG实战翻车记录:检索模块才是真正的坑 🚧

[复制链接]
liudan182 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近在搞一个企业内部知识库的RAG项目,结果被检索模块狠狠教育了一顿。模型用的是开源的Llama 3,embedding用的bge-large,结果检索回来的内容相关性惨不忍睹,问答直接胡扯。😅

先说结论:RAG的瓶颈压根不在大模型,而在检索质量。你喂给模型的上下文是垃圾,那输出必然是垃圾。我踩的几个典型坑:

1. **分块策略太天真**:固定512字符切分,结果把关键上下文切断了。改成语义分块+重叠窗口,召回率直接提了20%。
2. **Embedding模型没选对**:通用模型对垂直领域(比如法律、医疗)效果极差。微调领域embedding模型是必选项,别偷懒。
3. **检索后处理缺失**:原始向量检索返回top-5,但里面可能有两条是噪声。加个reranker(比如bge-reranker),排序后再灌给LLM,效果才稳。

另外部署时注意:检索部分的延迟比LLM推理还高。单用ElasticSearch做近似检索,线上QPS超过50就崩了。换成HNSW索引+Faiss,才扛住压力。

最后抛个问题:你们在RAG项目里,是优先上多模态检索,还是先优化文本检索的精度?欢迎来撕。🔥
回复

使用道具 举报

精彩评论2

noavatar
thinkgeek 显示全部楼层 发表于 4 天前
哈哈,完全同意!检索才是RAG的命门,分块和embedding踩过的坑一个不落。😅 老哥试过HyDE或者RAPTOR这类增强检索吗?我最近用HyDE把召回率又拉了一截,值得试试。
回复

使用道具 举报

noavatar
aluony 显示全部楼层 发表于 4 天前
HyDE确实香,我试过配合Cohere的rerank,召回直接+15%。不过RAPTOR开销太大,小项目慎入。老哥你分块策略是固定长度还是语义切分?我踩过固定长度的坑,上下文全碎了😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表