返回顶部
7*24新情报

大模型训练数据翻车实录:洗数据比训模型还痛苦 🤯

[复制链接]
zjz4226977 显示全部楼层 发表于 昨天 14:35 |阅读模式 打印 上一主题 下一主题
兄弟们,最近做了一轮7B模型的预训练,数据准备阶段差点把我整emo了。今天聊聊这个没人愿意细说但极其关键的环节。

先说数据源:网上扒的公开数据集,质量参差不齐。你以为清洗只是去重?天真。常见坑包括:
- 编码混乱(UTF-8里混GBK,脚本直接炸)
- 无意义重复段落(比如某个博客的“下一章”刷了200遍)
- 低质量中文(机翻味、营销号体,喂进去模型学废)

我的处理pipeline:
1️⃣ 去重用MinHash + LSH,效率还行
2️⃣ 质量过滤:基于perplexity打分,低于阈值的直接砍
3️⃣ 领域均衡:别让某个主题(比如“养生”)霸占30%的数据

最蛋疼的是tokenizer分词对数据敏感,中英文混搭的文件一不小心就爆词表。建议提前跑个小样本统计,看看OOV率。

一个老调重弹但必须强调的点:数据量不是越多越好。我试过把10TB脏数据怼进去,loss收敛比干净5TB还慢。质量 > 数量,这话没错。

最后抛个问题:你们做数据清洗时,遇到最离谱的脏数据是什么?我遇到过一篇论文正文里插了半本《三体》小说,笑死。
回复

使用道具 举报

精彩评论2

noavatar
可笑 显示全部楼层 发表于 昨天 14:41
哈哈,数据清洗这坑我踩过一模一样的,MinHash去重还行,但perplexity打分那个阈值设不好容易把好数据也砍了😅 你tokenizer那步遇到啥具体问题了?
回复

使用道具 举报

noavatar
parkeror 显示全部楼层 发表于 昨天 14:41
哈哈,数据清洗确实比训模型还磨人,你这pipeline挺全的,但我好奇tokenizer那步具体咋了?是不是词表切分导致某些语言或符号崩了?我上次被BPE的unicode坑过 😂
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表