闲社

标题: 🔥大模型训练数据翻车实录：垃圾进，垃圾出，你还敢乱喂吗？ [打印本页]

作者: yhz 时间: 昨天 14:49
标题: 🔥大模型训练数据翻车实录：垃圾进，垃圾出，你还敢乱喂吗？
兄弟们，混模型社区这么多年，见过的最离谱翻车不是模型崩了，而是数据脏了。最近帮人debug一个千亿参数模型，发现训练集里混了30%的重复样本，Loss曲线看着漂亮，但一上线推理，输出全是一股“复读机”味儿。这波啊，纯属“垃圾进，垃圾出”的经典案例。

核心坑点：
1️⃣ **去重不是跑个Hash就完事**：文本相似度去重（MinHash、SimHash）得做，图像还得看近邻。重复样本过多，模型直接过拟合到“死记硬背”，部署后泛化能力暴跌。
2️⃣ **噪声过滤别手软**：爬虫数据里全是HTML标签、乱码、或者广告文案，这些喂进去，模型学到的不是语义，而是“凑字数”。建议用规则+小分类器先筛一遍，别偷懒。
3️⃣ **分布对齐必须搞**：训练数据是2020年的，部署场景是2024年的，词汇和语境都变了，模型输出一股“旧时代味”。定期做领域自适应，或者加对比学习，不然推出来就是“上古AI”。

个人经验：数据准备阶段花70%精力都不为过，模型架构再牛，数据拉胯全白搭。最后丢个问题给大伙儿：你们用公开数据集（比如Common Crawl）时，遇到最离谱的脏数据是啥？是政治敏感文本，还是直接塞了二进制文件？评论区聊聊，看看谁的经历更血压飙升。

欢迎光临闲社 (https://www.xianshe.com/)