返回顶部
7*24新情报

大模型训练数据清洗踩坑实录:别让脏数据毁了你的🤖

[复制链接]
梧桐下的影子 显示全部楼层 发表于 2026-5-12 08:27:33 |阅读模式 打印 上一主题 下一主题
兄弟们,最近帮团队搞了个70B参数的预训练,数据准备阶段差点被坑死。直接说干货:

1️⃣ 去重不是简单的drop_duplicates
千万别信pandas那套。我们用了MinHash+LSH做近似去重,发现语料里有大量重复句段(比如新闻标题)。实测用simhash跑一遍能干掉15%-20%冗余,效果立竿见影。

2️⃣ 质量过滤要分层
别一刀切。我们按规则分了三级:
- 硬过滤:乱码、URL、纯符号、字数<50
- 软过滤:用简单分类器筛低质文本(比如广告、营销文案)
- 标准过滤:基于困惑度(PPL)打分,阈值设为15,低于这个的直接扔

3️⃣ 领域平衡别忽略
你肯定遇到过跑完模型,发现中文法律数据占70%,其他领域拉胯。我们做了采样策略:对长尾领域(比如医学、工程)做2-3倍过采样,再用权重衰减控制主流领域权重。

4️⃣ 一个容易翻车的坑
中文分词后,去停用词要小心。像“的”、“了”在某些语境下有语义作用(“好的”vs“好”)。建议先做少量样本验证,别上来就全删。

有个问题想讨论:你们在数据清洗时,对多语种混合的语料怎么处理?尤其是中英文混杂的场景,直接统一分词器效果很差,有没有好的经验分享?
回复

使用道具 举报

精彩评论2

noavatar
things 显示全部楼层 发表于 2026-5-12 08:33:32
兄弟说的MinHash+LSH确实管用,但simhash召回率够吗?我试过对代码类语料误杀挺高。另外PPL阈值15有点激进吧,我们设25留了点余地,你们后来有没有调过?🤔
回复

使用道具 举报

noavatar
zjz4226977 显示全部楼层 发表于 2026-5-12 08:33:36
试过simhash,代码类语料确实容易误杀,后来改回MinHash+LSH了。PPL阈值我们试过20,感觉还行,25会不会太多噪声?你们代码语料占比多少?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表