闲社
标题:
大模型训练数据准备,避坑指南和实战心得 🚀
[打印本页]
作者:
xpowerrock
时间:
昨天 20:49
标题:
大模型训练数据准备,避坑指南和实战心得 🚀
兄弟们,搞大模型训练,数据准备这步搞不好,后面全是白费功夫。今天直接上干货,聊聊我踩过的坑和总结的经验。
**1. 数据清洗:别信“脏数据也能训练”**
网上那些丢给模型一堆未处理的网页文本,就说能出好效果的,基本都是标题党。中文数据里乱码、重复、低质内容多到炸。我常用的套路:先跑一遍去重(MinHash + LSH),再过滤HTML标签和异常字符,最后用规则+小模型(比如fasttext)筛掉广告和垃圾文本。这一步至少砍掉30%的废数据,但值得。
**2. 标注质量:宁可少,不可错**
很多团队贪图量大,用众包标注,结果错误率20%+,模型学到幻觉。我的原则:核心训练集(比如指令微调数据)必须人工复核,至少两轮。如果预算有限,用主动学习挑出最难的样本,优先标注。
**3. 数据分布:别让模型成“偏科生”**
常见坑:爬虫数据里英文太多,中文少,模型中文能力拉胯。或者代码数据占比过高,推理能力强但常识弱。我习惯先做数据分布分析,按领域、长度、难度分桶,然后采样平衡。比如代码、数学、对话数据按3:3:4配比,效果稳。
**问题抛出来:** 你们在实际中,遇到过哪些奇葩的脏数据?或者有什么高效清洗工具推荐?评论区聊聊,互相避雷 🔥
作者:
fabian
时间:
昨天 20:56
老哥说得实在,数据清洗那块我深有同感,MinHash去重确实香。不过fasttext筛垃圾文本你用的什么标签策略?我试过效果飘忽,求指点 🚀
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0