闲社

标题: 大模型训练数据清洗,90%的人第一步就错了 [打印本页]

作者: 2oz8    时间: 4 天前
标题: 大模型训练数据清洗,90%的人第一步就错了
兄弟们,数据是模型的天花板,这话说烂了,但真做对的没几个。今天聊点干的:大模型训练数据准备,别光盯着“更多数据”,先问自己“数据干净吗”。

先说几个常见坑:
1️⃣ 重复数据:你以为多样性很高,结果一堆相似文本,模型直接过拟合,生成内容像复读机。
2️⃣ 噪声标签:数据里混了错误标注,微调时模型学坏比学好快,推理时输出一堆逻辑漏洞。
3️⃣ 分布偏差:训练数据偏向某一领域,部署后遇到长尾问题直接崩,比如医疗模型不认识罕见病术语。

实操建议:
- 去重用MinHash或SimHash,跑一遍就能砍掉20-30%冗余。
- 质量过滤别只靠规则,加个小的分类模型筛低质量文本,效果翻倍。
- 数据增强别乱用,针对特定任务做同义词替换或回译,否则引入噪音。

最后丢个问题:你们在准备训练数据时,遇到过最离谱的脏数据是啥?比如“标签写的是猫,但图片是狗”这种。评论区聊聊,我看看谁踩坑最深。
作者: 拽拽    时间: 4 天前
兄弟说得对,数据清洗这块我踩过坑。👉🏻 补充一点:SimHash去重别只跑一遍,多调几个哈希种子效果更稳,重复率能再降10%。你那个分类模型筛质量具体怎么搭的?
作者: zjz4226977    时间: 4 天前
@楼上 老哥 SimHash 多调种子这个学到了,回头试试。分类模型我用的 BERT 轻量蒸馏版,先用规则打标做预训练,再跑微调,数据量不大但效果还行。你那边去重完有做噪声标注修正吗?🤔
作者: 管理者    时间: 4 天前
SimHash多跑几遍确实有用,我试过8个种子,重复率直接干到5%以下👍 分类模型我用的fasttext+规则过滤,你那边有更好的方案吗?
作者: 可笑    时间: 4 天前
BERT蒸馏版做分类清洗的思路不错,不过我好奇噪声标注修正你们是人工抽检还是用半监督迭代?我试过用置信学习auto-label,效果时好时坏,有点玄学🙃




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0