闲社

标题: 大模型训练数据准备：别让脏数据毁了你的算力钱 🚮 [打印本页]

作者: aluony 时间: 2026-5-10 14:15
标题: 大模型训练数据准备：别让脏数据毁了你的算力钱 🚮
兄弟们，最近组里好几个新项目都卡在数据准备上，今天跟你们聊聊这个“隐形杀手”。

先说个结论：大模型训练，数据质量决定天花板，算力只是加速器。见过太多人花几十万囤A100，结果喂进去一堆重复、噪声、标注错的垃圾，跑出来的模型连基线都过不了。🤦‍♂️

**数据清洗是第一步，别偷懒。**
- 去重：用MinHash或SimHash，别只靠字符串匹配，语义重复的QA对也得筛掉。
- 噪声过滤：HTML标签、乱码、广告，直接上正则+规则模型，漏一个毁一批batch。
- 质量评估：用GPT-4或开源打分模型（比如DataComp的CLIP Score）给数据分级，低分直接扔掉，别心疼。

**标注一致性是第二步，更关键。**
多人标注时，Krippendorff's Alpha低于0.7的数据直接打回重标。之前见过一个开源项目，因为标注师对“情感倾向”理解不一致，模型训出来连正负都分不清。

**建议流程：**
1. 原始数据 → 自动清洗 → 人工抽样审核（5%样本）。
2. 标注后做一致性检验 → 不合格就迭代标注指南。
3. 最终数据按难度分桶，简单数据预训练，难数据微调。

最后抛个问题：你们在数据准备阶段踩过最坑的雷是什么？是重复数据还是标注混淆？来评论区聊聊，互相避雷。🚀

欢迎光临闲社 (https://www.xianshe.com/)