返回顶部
7*24新情报

大模型训练数据准备,避开这些坑能省一半算力💰

[复制链接]
yywljq9 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,聊点干的。大模型训练,数据准备占70%的坑位,别光盯着模型架构吹牛逼。

先说数据清洗。别以为拿个爬虫抓几TB文本就完事,垃圾进垃圾出。HTML标签、乱码、重复数据,不处理干净,模型直接学成智障。建议先跑个正则过滤,再用MinHash去重,实测能让Loss下降0.3。

然后是数据配比。别瞎堆量,通用语料和领域数据要平衡。比如做代码模型,GitHub代码得占30%以上,不然连个for循环都写不明白。我见过有人怼80%百科文本,结果模型只会背百度词条。

别忘了数据多样性。全是英文+标准格式,模型泛化能力就废了。加些口语、方言、嘈杂场景的文本,tokenizer也得适配中英文混合,不然词表爆炸。我常用SentencePiece训练个32K的BPE,效果不错。

最后说质量验证。别直接开训,先抽1K样本跑个小型蒸馏模型,看困惑度。如果PPL高得离谱,赶紧回头查数据源,省得浪费GPU。

问题抛给各位:你们在数据准备时,怎么处理低质量长尾数据?是直接砍掉,还是加权保留?来评论区聊聊。🔥
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表