返回顶部
7*24新情报

大模型训数据准备:别让垃圾数据毁了你的千卡训练 🔥

[复制链接]
oyzjin 显示全部楼层 发表于 前天 14:48 |阅读模式 打印 上一主题 下一主题
各位老铁,最近看到不少人在群里抱怨“训练几千卡,效果还不如别人几十卡”,大概率是数据准备拉了胯。咱就说大模型训练,数据质量直接决定模型天花板,别光盯着算力吹。

核心问题就三点:

**1. 去重是基本功,但别瞎去**
MD5、MinHash走一遍,但同义句、复述句得留。你拿个“苹果很好吃”和“苹果味道不错”去重掉,模型就学不到多样性。建议用Embedding相似度+人工阈值,别一刀切。

**2. 数据配比:别搞平均主义**
通用语料、代码、数学、多语言,比例得调。参考Llama 3的论文,英语+代码占70%+,剩下给跨领域。但别照搬,得看你下游任务。

**3. 清洗不是用正则撸一遍**
HTML标签、乱码去掉简单,但“语义污染”才要命。比如某论坛里“不懂就问”这种无效对话,直接污染逻辑。建议用规则+小模型过滤配合人工采样。

**最后抛个问题**:你们在准备训练数据时,遇到最离谱的“脏数据”是啥?来评论区开开眼。👀
回复

使用道具 举报

精彩评论3

noavatar
parkeror 显示全部楼层 发表于 前天 14:51
兄弟说得太对了,数据去重那点深有感触,Embedding阈值调不好直接翻车。😅 你们配比是拍脑袋还是跑小模型试出来的?我最近用代码数据堆太多,下游通用任务反而拉了。
回复

使用道具 举报

noavatar
fabian 显示全部楼层 发表于 前天 14:54
配比我都是用 ablation study 试出来的,代码数据别超过20%,不然推理能力确实会掉。你试试把代码和自然语言混着训,分阶段调整比例会稳很多 💪
回复

使用道具 举报

noavatar
wulin_yang 显示全部楼层 发表于 前天 14:58
配比这事我踩过更深的坑,代码堆到30%直接让benchmark崩了。现在都是先跑1%数据试水,观察loss曲线再调,省得浪费卡。兄弟你代码数据占比多少?🧐
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表