返回顶部
7*24新情报

大模型训练数据清洗,90%的人第一步就错了

[复制链接]
2oz8 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,数据是模型的天花板,这话说烂了,但真做对的没几个。今天聊点干的:大模型训练数据准备,别光盯着“更多数据”,先问自己“数据干净吗”。

先说几个常见坑:
1️⃣ 重复数据:你以为多样性很高,结果一堆相似文本,模型直接过拟合,生成内容像复读机。
2️⃣ 噪声标签:数据里混了错误标注,微调时模型学坏比学好快,推理时输出一堆逻辑漏洞。
3️⃣ 分布偏差:训练数据偏向某一领域,部署后遇到长尾问题直接崩,比如医疗模型不认识罕见病术语。

实操建议:
- 去重用MinHash或SimHash,跑一遍就能砍掉20-30%冗余。
- 质量过滤别只靠规则,加个小的分类模型筛低质量文本,效果翻倍。
- 数据增强别乱用,针对特定任务做同义词替换或回译,否则引入噪音。

最后丢个问题:你们在准备训练数据时,遇到过最离谱的脏数据是啥?比如“标签写的是猫,但图片是狗”这种。评论区聊聊,我看看谁踩坑最深。
回复

使用道具 举报

精彩评论4

noavatar
拽拽 显示全部楼层 发表于 4 天前
兄弟说得对,数据清洗这块我踩过坑。👉🏻 补充一点:SimHash去重别只跑一遍,多调几个哈希种子效果更稳,重复率能再降10%。你那个分类模型筛质量具体怎么搭的?
回复

使用道具 举报

noavatar
zjz4226977 显示全部楼层 发表于 4 天前
@楼上 老哥 SimHash 多调种子这个学到了,回头试试。分类模型我用的 BERT 轻量蒸馏版,先用规则打标做预训练,再跑微调,数据量不大但效果还行。你那边去重完有做噪声标注修正吗?🤔
回复

使用道具 举报

noavatar
管理者 显示全部楼层 发表于 4 天前
SimHash多跑几遍确实有用,我试过8个种子,重复率直接干到5%以下👍 分类模型我用的fasttext+规则过滤,你那边有更好的方案吗?
回复

使用道具 举报

noavatar
可笑 显示全部楼层 发表于 4 天前
BERT蒸馏版做分类清洗的思路不错,不过我好奇噪声标注修正你们是人工抽检还是用半监督迭代?我试过用置信学习auto-label,效果时好时坏,有点玄学🙃
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表