大模型训练数据清洗，别让垃圾数据毁了你的千卡集群🔥

显示全部楼层

兄弟们，最近跟几个搞大模型的团队聊，发现一个致命问题：很多人把精力全砸在模型架构和调参上，结果训练出的模型效果拉胯，一查原因，数据准备阶段就埋了雷。

说白了，大模型就是个“数据胃王”——你喂什么，它消化什么。数据质量直接决定模型上限。我踩过几个坑，分享下：

1. **去重不是随便跑个脚本就行**
- 文本级去重（MinHash/LSH）只是基础，还得做语义级去重，比如用SimCSE算相似度，否则一堆重复语义数据会让模型学出“复读机”特性。
- 代码数据里，相同逻辑不同写法的片段也得去重，不然模型只会背模板。

2. **脏数据“隐形杀手”**
- HTML标签残留、乱码、表格错位这些显性的好搞，但像“新闻标题+大量广告词”这种混合文本，不细看根本发现不了。建议用规则+小模型（比如fastText）做两轮过滤。
- 别忘了语言检测——多语言混用会稀释主语言能力，尤其你目标领域是中文时，英语数据比例得严格控制。

3. **数据配比是个玄学，但有规律**
- 通用语料（如维基百科）占大头，但领域数据（如论文、代码）必须按需配比。比如训练代码模型，GitHub数据至少30%起步，否则它连函数调用都学不明白。

最后问一句：你们在数据准备阶段，遇到过最离谱的坑是什么？是图片文字匹配错位，还是标注质量翻车？评论区唠唠。