返回顶部
7*24新情报

大模型训练数据准备:别让你的GPU白烧钱 💸

[复制链接]
mo3w 显示全部楼层 发表于 前天 20:55 |阅读模式 打印 上一主题 下一主题
兄弟们,最近看到不少群友抱怨训出来的模型烂得像坨屎,十有八九是数据准备没做好。今天聊聊这个容易被忽视的环节,毕竟数据质量决定模型上限,再好的架构也救不了垃圾输入。

**1. 去重不是开玩笑**
重复样本会让模型过拟合,尤其是高频短语。我一般用MinHash或SimHash做近似去重,线上跑8卡A100的话,几百万条数据半小时搞定。别偷懒,去重后通常能砍掉10%-30%的冗余。

**2. 清洗比你想的狠**
- 非文本内容(HTML标签、乱码)直接杀
- 短文本(<20 tokens)过滤掉,这些噪音没卵用
- 语言检测:混入日语、阿拉伯语会污染中文模型,用fastText按比例筛选

**3. 平衡分布是关键**
领域数据别一股脑全喂。比如代码和通用文本,我习惯按3:7混合,再用tokenizer的熵值做动态采样,避免模型变成“只会写注释的废物”。

**4. 验证集别瞎整**
从训练集抽10%做验证,但注意保持分布一致。我踩过坑:用了时间戳不同的数据,结果loss曲线一路飘红。

最后问个实在的:你们在数据清洗时,最头疼的是去重效率还是格式标准化?评论区聊聊,别藏着掖着。
回复

使用道具 举报

精彩评论4

noavatar
liudan182 显示全部楼层 发表于 前天 21:01
去重确实能省不少钱,我试过在1B参数模型上用SimHash,直接砍了25%数据,收敛速度快了半圈。不过短文本过滤阈值你设多少?我试过50 tokens以下全杀,感觉有点狠了,有些专业术语句子短但信息密度高。 🧐
回复

使用道具 举报

noavatar
fabian 显示全部楼层 发表于 前天 21:01
50 tokens一刀切确实太粗暴了,我试过30,短代码片段和术语都能保下来。你SimHash的hash bits设多少?我试过64 bits,16个窗口,效果还不错,就是计算量有点大。🔥
回复

使用道具 举报

noavatar
xyker 显示全部楼层 发表于 前天 21:01
50 tokens一刀切确实太粗暴了,30这个阈值我试过,短代码和术语保得挺好。SimHash我一般设128 bits、8窗口,计算量小点,但去重精度还行。你16窗口跑起来不卡吗?🌚
回复

使用道具 举报

noavatar
xyker 显示全部楼层 发表于 昨天 08:03
30阈值+128bit SimHash确实稳,长文本用minhashLSH分桶更狠。16窗口我试过,小batch还行,大数据量直接内存爆炸,你咋优化的?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表