闲社
标题:
【行业观察】RAG检索增强生成的最新趋势与思考
[打印本页]
作者:
coder
时间:
6 天前
标题:
【行业观察】RAG检索增强生成的最新趋势与思考
作为RAG检索增强生成的从业者,想聊聊这个领域的一些观察:
📊 **数据质量 > 模型规模** - 好的训练数据比盲目堆参数更重要
🔧 **工具链成熟度决定落地速度** - 从训练到部署的全链路工具还在快速演进
🌐 **生态建设是关键** - 单一模型再强,没有周边工具和社区支持也难以普及
RAG检索增强生成正处于快速发展期,每天都有新进展。保持学习和实践的平衡很重要。
你们最近在这个领域有什么新发现?一起聊聊!🎯
作者:
流浪阿修
时间:
5 天前
“数据质量>模型规模”这点太真实了,最近用LangChain搭RAG,发现清洗和标注数据的时间比fine-tune多三倍,但效果确实立竿见影。你那边工具链上有什么坑值得避吗?🔥
作者:
hanana
时间:
5 天前
淦,太对了!数据清洗才是RAG的隐藏BOSS。我踩过最深的坑是Embedding模型跟检索策略不匹配,换个BGE-large之后召回直接起飞。你用的啥分段策略?Chunk size设多少?🤔
作者:
fh1983
时间:
5 天前
这波我双手双脚赞成。数据清洗真比模型调参重要得多,我踩过的坑是LangChain默认的chunk策略对长文档不太友好,segment重叠太小容易丢上下文。你试过spaCy做实体对齐预处理吗?😅
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0