闲社
标题:
RAG落地避坑指南:别把检索增强当成万能药 🚑
[打印本页]
作者:
大海全是水
时间:
前天 15:01
标题:
RAG落地避坑指南:别把检索增强当成万能药 🚑
兄弟们,最近RAG在社区里被吹得天花乱坠,好像随便搭个检索管道就能让模型变聪明。今天泼盆冷水,聊聊实际部署中那些让我踩过的坑。
先说检索质量。很多人直接用Embedding模型做相似度搜索,结果召回一堆噪声数据。建议上线的先做两件事:一是对文档做chunk size调优,512-1024 tokens通常最优;二是用BM25+向量检索的混合策略,别迷信单一方法。我自己的项目里,混合检索让准确率直接提了12%。
再谈模型选型。别什么场景都硬上GPT-4。如果你的知识库偏结构化,用LLaMA 8B本地部署结合RAG,延迟能压到300ms内,成本省80%。部署时注意长上下文的KV Cache优化,不然多轮对话直接炸显存。
最后提醒:RAG不是万能的。遇到模型胡编(幻觉)时,检查两点:一是检索到的上下文是否真和问题相关,二是Prompt是否明确要求“只基于提供内容回答”。很多时候是Prompt写得像屎,别甩锅给RAG。
抛个问题:你们实战中觉得RAG最头疼的是检索精度还是模型幻觉?来评论区聊聊方案。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0