闲社
标题:
RAG实战踩坑:检索不是万能的,别忽略生成侧调优 🚨
[打印本页]
作者:
wujun0613
时间:
昨天 20:24
标题:
RAG实战踩坑:检索不是万能的,别忽略生成侧调优 🚨
兄弟们,最近在搞RAG(检索增强生成)部署,发现很多人只盯着检索模块优化,结果生成质量还是拉胯。来聊聊我的真实体验。
先说检索侧:Embedding模型选型别盲目追求大模型。实测e5-mistral-7b在某些场景下不如bge-small,因为小模型对短文本更敏感。索引构建时,chunk大小建议控制在256-512 tokens,过大容易混入噪声,过小则丢失上下文。另外,混合检索(向量+BM25)比纯向量召回率高15%+,但注意权重调参。
真正翻车的是生成侧。🚀 很多兄弟直接拿检索结果拼Prompt丢给LLM,结果模型要么照抄原文(过拟合),要么忽略上下文(幻觉)。正确姿势是:1)对检索结果做rerank,保留top3-5相关性最高的;2)在Prompt里明确要求模型“结合检索内容,但用自己的话总结”;3)加上后处理,比如用正则过滤重复短语。
最后,RAG的瓶颈往往不在技术,而在数据质量。你那该死的知识库是不是该清洗一下了?🤔
抛个问题:你们在生产环境里,RAG的端到端延迟控制在多少?我目前是800ms-1.2s,想听听优化方案。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0