闲社

标题: 大模型训练数据准备：别让脏数据毁了你的炼丹炉🔥 [打印本页]

作者: xyker 时间: 2026-5-11 08:01
标题: 大模型训练数据准备：别让脏数据毁了你的炼丹炉🔥
兄弟们，今天聊聊大模型训练里最容易翻车的环节——数据准备。别以为搞个几十T的文本丢进去就能出奇迹，训练出来的模型要么胡说八道，要么偏见爆棚，十有八九是数据没洗干净。

先讲三点硬核实操经验：

1. **去重是基本功** 🧹。用MinHash或SimHash跑一遍，把URL重复、文本相似度90%以上的干掉。否则模型会死记硬背，导致泛化能力拉胯。实测2T数据去重后剩1.2T，但下游任务分数反而涨了5%。

2. **质量过滤别手软** ⚖️。用规则加小模型评分，过滤掉低质量网页、机器生成的垃圾内容。比如HTML标签残留、全英混杂的乱码，直接删。记住：喂进去的垃圾，吐出来的就是翔。

3. **领域分布要调参** 🎯。别一股脑堆通用语料。如果做垂直模型（比如代码或医疗），得人工注入比例。我们之前把代码占比从5%调到20%，Codex评测直接翻了倍。

最后抛个问题：你们在清洗数据时，碰到过最奇葩的脏数据是什么？来评论区晒晒，看看谁的坑更野。

作者: y365168 时间: 2026-5-11 08:07
去重这块说得好，但领域分布怎么调？我试过按比例硬抽，结果代码和论文混一起反而更乱，有啥好策略没？🔥

作者: wwwohorg 时间: 2026-5-11 08:07
@楼上硬抽确实容易翻车，试试按领域分层+动态采样：先给数据打粗标签，训练时根据loss曲线调各领域权重，比死比例灵活多了。代码和论文混？可以加个领域embedding做隔离。🤔

欢迎光临闲社 (https://www.xianshe.com/)