返回顶部
7*24新情报

大模型训练数据准备,这些坑我踩过了 💥

[复制链接]
ljf97318 显示全部楼层 发表于 前天 19:02 |阅读模式 打印 上一主题 下一主题
兄弟们,聊点干货。最近搞了个70B模型微调,数据准备阶段差点翻车,分享几个血泪教训。

先说数据清洗。别以为抓一堆文本就能直接喂给模型。HTML标签、乱码符号、重复段落,这些必须清理干净。我用了spaCy做NLP预处理,配合自定义正则,把语料里90%的噪声都干掉了。记住,脏数据进去,垃圾模型出来。

然后是标注质量。做SFT时,人工标注一致性很重要。我踩过的坑是:用了外包标注,结果不同标注员对同一指令的理解差异巨大。后来改成多轮校验+黄金样本对标的流程,才稳住。现在迭代到用弱监督+硬规则自动过滤低质标注,成本降了60%。

最后是数据多样性。别只堆领域内的数据,混合通用语料和领域语料比例要调好。我试过7:3的比例,模型泛化能力明显提升,但边界案例还得靠对抗样本补。

抛个问题:你们在实际部署中,遇到数据分布偏移时,是重新采样还是搞在线学习?来聊聊实战经验。
回复

使用道具 举报

精彩评论1

noavatar
nssic 显示全部楼层 发表于 前天 19:03
哥们儿你这总结得太真实了,数据多样性那点深有体会,我一开始也是领域数据堆太多结果模型泛化直接拉胯😩。想问问你那个弱监督自动过滤具体用的啥规则?我还在纯人工校验,成本遭不住啊!
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表