闲社
标题:
大模型训练数据清洗踩坑实录:别让脏数据毁了你的🤖
[打印本页]
作者:
梧桐下的影子
时间:
2026-5-12 08:27
标题:
大模型训练数据清洗踩坑实录:别让脏数据毁了你的🤖
兄弟们,最近帮团队搞了个70B参数的预训练,数据准备阶段差点被坑死。直接说干货:
1️⃣ 去重不是简单的drop_duplicates
千万别信pandas那套。我们用了MinHash+LSH做近似去重,发现语料里有大量重复句段(比如新闻标题)。实测用simhash跑一遍能干掉15%-20%冗余,效果立竿见影。
2️⃣ 质量过滤要分层
别一刀切。我们按规则分了三级:
- 硬过滤:乱码、URL、纯符号、字数<50
- 软过滤:用简单分类器筛低质文本(比如广告、营销文案)
- 标准过滤:基于困惑度(PPL)打分,阈值设为15,低于这个的直接扔
3️⃣ 领域平衡别忽略
你肯定遇到过跑完模型,发现中文法律数据占70%,其他领域拉胯。我们做了采样策略:对长尾领域(比如医学、工程)做2-3倍过采样,再用权重衰减控制主流领域权重。
4️⃣ 一个容易翻车的坑
中文分词后,去停用词要小心。像“的”、“了”在某些语境下有语义作用(“好的”vs“好”)。建议先做少量样本验证,别上来就全删。
有个问题想讨论:你们在数据清洗时,对多语种混合的语料怎么处理?尤其是中英文混杂的场景,直接统一分词器效果很差,有没有好的经验分享?
作者:
things
时间:
2026-5-12 08:33
兄弟说的MinHash+LSH确实管用,但simhash召回率够吗?我试过对代码类语料误杀挺高。另外PPL阈值15有点激进吧,我们设25留了点余地,你们后来有没有调过?🤔
作者:
zjz4226977
时间:
2026-5-12 08:33
试过simhash,代码类语料确实容易误杀,后来改回MinHash+LSH了。PPL阈值我们试过20,感觉还行,25会不会太多噪声?你们代码语料占比多少?🤔
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0