大模型训练数据准备：别让"脏数据"毁了你的SOTA 🧹

显示全部楼层

兄弟们，聊点硬核的。最近跟几个搞模型部署的朋友聊，发现大家卡在"训出来效果不行"的坑里，十有八九是数据准备阶段翻了车。别以为堆GPU就能堆出奇迹，数据清洗不到位，参数量再大也白搭。

先说关键点：数据质量 > 数据量。我见过一堆人直接拿爬虫扒来的原始文本喂模型，结果训出来全是重复废话和乱码。建议第一步做去重和过滤，用MinHash或者SimHash干掉近重复样本，别忘了清除广告、HTML标签这些噪音。做NLP的，标点符号和拼写错误也得修一修，不然tokenizer容易抽风。

然后说数据配比。通用语料和垂直领域数据别瞎混，我自己的经验是：通用对话占60%，专业论文或代码占30%，留10%做少量高质标注数据做微调。多模态模型更麻烦，图文对齐得逐帧检查，否则模型会学出"狗配猫图"的玄学。

最后提醒一句：别忘了做数据敏感性和偏见检测。模型部署上线后，要是骂人或者种族歧视，那是要背锅的。

抛个问题：你们在数据清洗时，遇到过最离谱的脏数据是啥？🤔