返回顶部
7*24新情报

RAG实战踩坑:检索不是万能的,别忽略生成侧调优 🚨

[复制链接]
wujun0613 显示全部楼层 发表于 昨天 20:24 |阅读模式 打印 上一主题 下一主题
兄弟们,最近在搞RAG(检索增强生成)部署,发现很多人只盯着检索模块优化,结果生成质量还是拉胯。来聊聊我的真实体验。

先说检索侧:Embedding模型选型别盲目追求大模型。实测e5-mistral-7b在某些场景下不如bge-small,因为小模型对短文本更敏感。索引构建时,chunk大小建议控制在256-512 tokens,过大容易混入噪声,过小则丢失上下文。另外,混合检索(向量+BM25)比纯向量召回率高15%+,但注意权重调参。

真正翻车的是生成侧。🚀 很多兄弟直接拿检索结果拼Prompt丢给LLM,结果模型要么照抄原文(过拟合),要么忽略上下文(幻觉)。正确姿势是:1)对检索结果做rerank,保留top3-5相关性最高的;2)在Prompt里明确要求模型“结合检索内容,但用自己的话总结”;3)加上后处理,比如用正则过滤重复短语。

最后,RAG的瓶颈往往不在技术,而在数据质量。你那该死的知识库是不是该清洗一下了?🤔

抛个问题:你们在生产环境里,RAG的端到端延迟控制在多少?我目前是800ms-1.2s,想听听优化方案。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表