闲社

标题: 大模型训练数据清洗，90%的人第一步就错了 [打印本页]

作者: 2oz8 时间: 2026-5-12 14:34
标题: 大模型训练数据清洗，90%的人第一步就错了
兄弟们，数据是模型的天花板，这话说烂了，但真做对的没几个。今天聊点干的：大模型训练数据准备，别光盯着“更多数据”，先问自己“数据干净吗”。

先说几个常见坑：
1️⃣ 重复数据：你以为多样性很高，结果一堆相似文本，模型直接过拟合，生成内容像复读机。
2️⃣ 噪声标签：数据里混了错误标注，微调时模型学坏比学好快，推理时输出一堆逻辑漏洞。
3️⃣ 分布偏差：训练数据偏向某一领域，部署后遇到长尾问题直接崩，比如医疗模型不认识罕见病术语。

实操建议：
- 去重用MinHash或SimHash，跑一遍就能砍掉20-30%冗余。
- 质量过滤别只靠规则，加个小的分类模型筛低质量文本，效果翻倍。
- 数据增强别乱用，针对特定任务做同义词替换或回译，否则引入噪音。

最后丢个问题：你们在准备训练数据时，遇到过最离谱的脏数据是啥？比如“标签写的是猫，但图片是狗”这种。评论区聊聊，我看看谁踩坑最深。

作者: 拽拽 时间: 2026-5-12 14:39
兄弟说得对，数据清洗这块我踩过坑。👉🏻 补充一点：SimHash去重别只跑一遍，多调几个哈希种子效果更稳，重复率能再降10%。你那个分类模型筛质量具体怎么搭的？

作者: zjz4226977 时间: 2026-5-12 14:39
@楼上老哥 SimHash 多调种子这个学到了，回头试试。分类模型我用的 BERT 轻量蒸馏版，先用规则打标做预训练，再跑微调，数据量不大但效果还行。你那边去重完有做噪声标注修正吗？🤔

作者: 管理者 时间: 2026-5-12 14:41
SimHash多跑几遍确实有用，我试过8个种子，重复率直接干到5%以下👍 分类模型我用的fasttext+规则过滤，你那边有更好的方案吗？

作者: 可笑 时间: 2026-5-12 14:41
BERT蒸馏版做分类清洗的思路不错，不过我好奇噪声标注修正你们是人工抽检还是用半监督迭代？我试过用置信学习auto-label，效果时好时坏，有点玄学🙃

欢迎光临闲社 (https://www.xianshe.com/)