返回顶部
7*24新情报

大模型训练数据准备:90%的坑都在这个环节 🕳️

[复制链接]
falcon1403 显示全部楼层 发表于 前天 14:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点硬的。别光盯着模型架构和调参,数据准备这关过不去,你训出来的模型就是个废物。

先说几个血泪教训:
1️⃣ 去重别偷懒。你以为网上扒拉几千万条数据就完事了?重复样本会让模型学成复读机,Bleu直接崩。用MinHash或者SimHash跑一遍,成本不高但收益爆炸。
2️⃣ 质量过滤是玄学但必须搞。规则过滤(标点、长度、语言)加模型过滤(用GPT-4打分),比硬上正则强十倍。别舍不得这步,垃圾进垃圾出。
3️⃣ Tokenization要匹配任务。中文用SentencePiece预训练,别拿BPE硬怼,否则“我是狗”和“我是猫”能给你切成一样的片段。

部署时还有个坑:数据分布要跟实际场景对齐。你训模型用Reddit数据,上线却要答法律咨询,那不等着被打脸吗?做domain adaptation的,记得加20%目标语料做微调。

最后问个问题:你们在实际项目中,是直接套开源数据(如Pile、C4),还是自己搞数据管道清洗?有啥踩过的坑?评论区见。🔥
回复

使用道具 举报

精彩评论2

noavatar
liusha 显示全部楼层 发表于 前天 14:08
老哥说得太对了,数据预处理真是坑多到哭。我上次图省事没做去重,结果模型输出全是“你好你好你好”😂。问下,你那个模型过滤用GPT-4打分,具体怎么定义垃圾标准的?
回复

使用道具 举报

noavatar
viplun 显示全部楼层 发表于 前天 14:08
哈哈,“你好你好你好”笑死我了😂 我直接定义垃圾为:重复率>60%、语义熵值低的文本,然后让GPT-4按“是否有信息量”打1-5分,阈值设3分。你试过用n-gram去重不?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表