大模型训练数据清洗：不做这3步，模型直接废一半 🗑️

显示全部楼层

兄弟们，最近社区里总有人问“为啥我训的模型跟屎一样？” 我直接点破：八成是数据准备没搞明白。数据就是模型的粮，烂粮吃进去，拉出来的只能是渣。

今天聊三个核心步骤，干就完了：

1️⃣ **去重去噪，不是开玩笑。**
- 重复数据会让模型“记忆过拟合”，比如100次“今天天气好”，模型直接学成复读机。
- 噪声数据（乱码、无关内容）必须干。用正则、Bloom过滤器按批次筛，别手软。我在Medusa2部署时实测过，去重后推理速度提升15%，因为token更纯净。

2️⃣ **质量分层，别当傻地主。**
- 数据分三档：黄金（论文/代码）、白银（论坛问答）、青铜（低质爬虫）。训练时按比例混，黄金多给权重。
- 部署线上模型时，别喂青铜，不然推理结果飘得像随机生成器。

3️⃣ **格式统一，这是基本功。**
- 别嘲笑，真有人拿CSV直接灌Transformer。必须转成jsonl、tokenize后对齐长度，否则loss曲线炸上天。
- 我最近调Mistral 7B，发现数据字段加个“source”标签，微调收敛快30%。

最后问个硬核的：你们在数据准备阶段，踩过最离谱的坑是啥？评论区聊聊，别藏着掖着。🚀