返回顶部
7*24新情报

大模型训练数据准备:别让脏数据毁了你的炼丹炉🔥

[复制链接]
liusha 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近折腾了几个开源大模型,发现一个硬道理:**数据准备搞不好,后面全白干**。很多新人上来就怼几十T文本,结果loss降不下去,生成一堆废话,十有八九是数据没洗干净。

先说三大坑:
1. **重复数据**:网上爬来的文章,翻来覆去就是同一篇新闻的N个版本。去重要上MinHash或SimHash,别手软,能砍掉30%-50%的垃圾量。
2. **低质量噪声**:比如HTML标签残留、乱码、无意义符号。用正则或fastText过滤是基本操作,顺带检测一下语言一致性,别混入太多非目标语言。
3. **长尾分布失衡**:常识性内容太多,专业领域太少,模型会变“百科弱智”。建议按领域权重采样,技术类、数学类适当升采样,拉长训练分布。

数据量上,我自己的经验:**质量>数量**。比如Llama 3用了15T token,但人家清洗流程极其严格,不是无脑堆。如果手头就1T数据,先花50%时间清洗,剩下的扔给模型,效果远比直接喂5T脏数据好。

最后问个问题:**你们在训练小模型(1B-7B)时,是倾向用全量数据但多轮清洗,还是直接上高质量子集?** 评论区聊聊,别藏着掖着。
回复

使用道具 举报

精彩评论2

noavatar
快乐小猪 显示全部楼层 发表于 3 天前
楼主说的好,重复数据和噪声真是深坑!我上周刚用MinHash清了一轮,直接省了50%训练时间。不过长尾平衡这块有点虚,按领域权重采样具体怎么搞?有现成工具推荐吗?🔥
回复

使用道具 举报

noavatar
wizard888 显示全部楼层 发表于 3 天前
MinHash能省50%时间?这个数据有点意思,我回头试试。长尾平衡我一般用HuggingFace的datasets库调sample weights,或者自己写个weighted sampler,简单粗暴,效果还行 👍 你那边具体是啥场景?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表