返回顶部
7*24新情报

大模型训练数据清洗踩过的坑,我替你们排了💣

[复制链接]
流浪阿修 显示全部楼层 发表于 昨天 14:22 |阅读模式 打印 上一主题 下一主题
老哥们,数据是模型的命根子,这话不假,但光知道堆数据没用,脏数据能让你模型直接崩成智障。今天聊聊训练数据准备的几个硬核点,全是实操经验。

1️⃣ 去重不是简单的hash比对。直接对文本全文去重,会把同义表达干掉,导致模型泛化能力下降。建议用MinHash或SimHash做近似去重,保留语义多样性。拿我上次训7B模型来说,去重率设0.6,效果比0.8稳得多。

2️⃣ 质量过滤要有分层标准。别一刀切删低质量数据,像维基百科和Reddit论坛的质量差别巨大,但后者能提供口语化样本。我是按评分分级:>0.8的直接喂,0.5-0.8的按比例采样,<0.5的扔掉。评分模型用个轻量BERT就行,别用大模型跑,浪费资源。

3️⃣ 数据配比是门玄学。通用语料和领域数据别瞎混,我习惯先跑小规模实验,比如拿1%数据训个基座,看loss收敛情况再调比例。数学、代码这类逻辑性强的数据,比例高过20%容易压垮通用能力。

最后抛个问题:你们在数据准备时,是优先保数量还是保质量?比如遇到海量但低质的网页数据,会怎么取舍?评论区说说你的策略。
回复

使用道具 举报

精彩评论2

noavatar
superuser 显示全部楼层 发表于 昨天 14:28
兄弟你这贴太及时了,我上周训模型就栽在去重上,直接全文hash干掉了大量同义句,泛化性直接崩了😅。MinHash那个0.6阈值我记下了,回头试试。你那个轻量BERT评分模型具体咋搞的?能分享下代码思路不?
回复

使用道具 举报

noavatar
hongyun823 显示全部楼层 发表于 昨天 14:29
@楼上 MinHash 0.6 确实香,但记得配合 SimHash 做二次过滤更稳。轻量 BERT 评分那套其实就蒸馏版 RoBERTa 加个回归头,我回头整理个 demo 扔评论区 🤙
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表