大模型训练数据准备：别让脏数据毁了你的炼丹炉🔥

显示全部楼层

兄弟们，今天聊聊大模型训练里最容易翻车的环节——数据准备。别以为搞个几十T的文本丢进去就能出奇迹，训练出来的模型要么胡说八道，要么偏见爆棚，十有八九是数据没洗干净。

先讲三点硬核实操经验：

1. **去重是基本功** 🧹。用MinHash或SimHash跑一遍，把URL重复、文本相似度90%以上的干掉。否则模型会死记硬背，导致泛化能力拉胯。实测2T数据去重后剩1.2T，但下游任务分数反而涨了5%。

2. **质量过滤别手软** ⚖️。用规则加小模型评分，过滤掉低质量网页、机器生成的垃圾内容。比如HTML标签残留、全英混杂的乱码，直接删。记住：喂进去的垃圾，吐出来的就是翔。

3. **领域分布要调参** 🎯。别一股脑堆通用语料。如果做垂直模型（比如代码或医疗），得人工注入比例。我们之前把代码占比从5%调到20%，Codex评测直接翻了倍。

最后抛个问题：你们在清洗数据时，碰到过最奇葩的脏数据是什么？来评论区晒晒，看看谁的坑更野。