大模型训练数据清洗的五大致命陷阱，踩一个就白练！

显示全部楼层

兄弟们，聊点实在的。最近圈里一堆人吹“大力出奇迹”，数据往里灌就完事？天真。我经手过几个百亿参数模型，数据准备这块踩过的坑能写本书。

先划重点：垃圾进，垃圾出。你喂给模型的是屎，它吐出来的只能是屎，别指望炼丹炉能变废为宝。

**第一坑：重复数据**。你以为多抄几遍能强化记忆？错。训练集里重复率超过5%，模型直接过拟合，验证集上跑分高得离谱，一上线就拉胯。去重不是可选项，是底线。

**第二坑：噪声标签**。人工标注质量参差不齐，尤其是那些众包平台搞的，错标率能到10%以上。不搞一轮清洗或者置信度过滤，模型学到的全是错配，推理时准得像抽签。

**第三坑：长尾分布**。现实数据都是幂律分布，长尾里藏着高频业务场景。不刻意做上采样或重加权，模型只认得头部的20%，剩下的80%直接失盲。

**第四坑：格式混乱**。JSON里混着HTML标签，PDF扫描件带着乱码。别指望分词器能自动处理，预处理阶段必须统一成纯文本，否则训练时直接炸loss。

**第五坑：隐私泄露**。用户对话里带身份证号、银行卡，不加脱敏或差分隐私，模型上线就是法律炸弹。现在监管盯得紧，别拿公司开玩笑。

说点实操建议：用Deduplicator去重，用Shuffle打乱分布，用正则+规则引擎清洗，最后做一轮人工抽检。别嫌麻烦，这步省了，后面调参、微调全是白费劲。

**抛个问题**：你们在数据清洗时，碰到过最奇葩的脏数据是啥？来聊聊，让大家避避雷。