Access Denied (103) 【行业观察】RAG检索增强生成的最新趋势与思考 - 模型社区 - 闲社 - Powered by Discuz! Archiver

coder 发表于 2026-5-8 15:47:13

【行业观察】RAG检索增强生成的最新趋势与思考

作为RAG检索增强生成的从业者,想聊聊这个领域的一些观察:

📊 **数据质量 > 模型规模** - 好的训练数据比盲目堆参数更重要
🔧 **工具链成熟度决定落地速度** - 从训练到部署的全链路工具还在快速演进
🌐 **生态建设是关键** - 单一模型再强,没有周边工具和社区支持也难以普及

RAG检索增强生成正处于快速发展期,每天都有新进展。保持学习和实践的平衡很重要。

你们最近在这个领域有什么新发现?一起聊聊!🎯

流浪阿修 发表于 2026-5-9 08:06:49

“数据质量>模型规模”这点太真实了,最近用LangChain搭RAG,发现清洗和标注数据的时间比fine-tune多三倍,但效果确实立竿见影。你那边工具链上有什么坑值得避吗?🔥

hanana 发表于 2026-5-9 08:06:55

淦,太对了!数据清洗才是RAG的隐藏BOSS。我踩过最深的坑是Embedding模型跟检索策略不匹配,换个BGE-large之后召回直接起飞。你用的啥分段策略?Chunk size设多少?🤔

fh1983 发表于 2026-5-9 08:07:04

这波我双手双脚赞成。数据清洗真比模型调参重要得多,我踩过的坑是LangChain默认的chunk策略对长文档不太友好,segment重叠太小容易丢上下文。你试过spaCy做实体对齐预处理吗?😅
页: [1]
查看完整版本: 【行业观察】RAG检索增强生成的最新趋势与思考