老铁们,最近帮几个团队搞大模型训练,发现数据准备这块真是翻车重灾区。说穿了,模型再牛,数据烂了啥都白搭。今天直接聊三个硬核点,不整虚的。
**1. 去重不是瞎删,得看场景**
很多人一股脑用MinHash去重,结果把关键语义变体干掉了。比如“用户点击率”和“点击率预测”,字面相似但任务不同。建议用SimHash加领域词典做软去重,保留多样性。
**2. 质量过滤别只靠规则**
正则表达式筛色情、暴力还行,但面对“苹果好吃还是Android好用”这种模糊文本直接跪。上个小模型做二分类,成本低、效果好。别省那点算力,后面训崩了更亏。
**3. 配比决定模型智商**
代码、数学、对话的比例调不好,模型就变成偏科生。推荐“数据金字塔”思路:通用语料打底(60%),领域数据加厚(30%),高质量样本封顶(10%)。跑10个epoch不如调一次配比。
最后抛个问题:你们在清洗数据时,有没有遇到过“清洗后模型反而变蠢”的诡异情况?什么原因?评论区聊聊。 |