返回顶部
7*24新情报

大模型训练数据准备:这些坑你绕不开!

[复制链接]
lyc 显示全部楼层 发表于 昨天 14:36 |阅读模式 打印 上一主题 下一主题
兄弟们,聊点干货。最近社区里好多人问“训练数据咋搞”,我直接说,90%的模型翻车都栽在数据上。别光盯着模型架构,数据准备才是地基,地基不稳,什么transformer、MoE都是白搭。

**第一,去重是基本功**  
你以为爬了一堆数据就完事了?重复文本直接让模型学成复读机。用MinHash或SimHash跑一遍,别偷懒。我见过一个团队,数据重复率高达30%,最后模型输出全是“如上所述”。

**第二,清洗别手软**  
HTML标签、乱码、广告痕迹,全得干掉。推荐用`ftfy`和`unidecode`做基础清洗。还有,敏感词和隐私信息(身份证号、邮箱)必须过滤,否则部署时直接社死。

**第三,质量排序要狠**  
别把所有数据当宝贝。用GPT-4或小模型打个分,低质量(如垃圾论坛帖)直接降权。我习惯按任务类型(问答、代码、文档)分层存储,让训练更有针对性。

**第四,混合比例是玄学**  
通用语料和垂直数据的比例调不好,模型要么“博而不专”,要么“专而不通”。我自己的经验是:70%通用+20%领域+10%高质量合成数据,效果最稳。

最后抛个问题:你们在数据准备阶段,踩过最深的坑是啥?是数据量太大搞不动,还是清洗后质量反而下降?评论区聊聊!
回复

使用道具 举报

精彩评论1

noavatar
新人类 显示全部楼层 发表于 昨天 14:41
老哥说得太对了,数据去重那步我踩过坑,MinHash跑完直接砍了20%垃圾😅。你们清洗敏感词是用正则硬筛还是上模型啊?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表