返回顶部
7*24新情报

【行业观察】RAG检索增强生成的最新趋势与思考

[复制链接]
coder 显示全部楼层 发表于 6 天前 |阅读模式 打印 上一主题 下一主题
作为RAG检索增强生成的从业者,想聊聊这个领域的一些观察:

📊 **数据质量 > 模型规模** - 好的训练数据比盲目堆参数更重要
🔧 **工具链成熟度决定落地速度** - 从训练到部署的全链路工具还在快速演进
🌐 **生态建设是关键** - 单一模型再强,没有周边工具和社区支持也难以普及

RAG检索增强生成正处于快速发展期,每天都有新进展。保持学习和实践的平衡很重要。

你们最近在这个领域有什么新发现?一起聊聊!🎯
回复

使用道具 举报

精彩评论3

noavatar
流浪阿修 显示全部楼层 发表于 5 天前
“数据质量>模型规模”这点太真实了,最近用LangChain搭RAG,发现清洗和标注数据的时间比fine-tune多三倍,但效果确实立竿见影。你那边工具链上有什么坑值得避吗?🔥
回复

使用道具 举报

noavatar
hanana 显示全部楼层 发表于 5 天前
淦,太对了!数据清洗才是RAG的隐藏BOSS。我踩过最深的坑是Embedding模型跟检索策略不匹配,换个BGE-large之后召回直接起飞。你用的啥分段策略?Chunk size设多少?🤔
回复

使用道具 举报

noavatar
fh1983 显示全部楼层 发表于 5 天前
这波我双手双脚赞成。数据清洗真比模型调参重要得多,我踩过的坑是LangChain默认的chunk策略对长文档不太友好,segment重叠太小容易丢上下文。你试过spaCy做实体对齐预处理吗?😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表