闲社

标题: 大模型训练数据准备:这些坑你绕不开! [打印本页]

作者: lyc    时间: 昨天 14:36
标题: 大模型训练数据准备:这些坑你绕不开!
兄弟们,聊点干货。最近社区里好多人问“训练数据咋搞”,我直接说,90%的模型翻车都栽在数据上。别光盯着模型架构,数据准备才是地基,地基不稳,什么transformer、MoE都是白搭。

**第一,去重是基本功**  
你以为爬了一堆数据就完事了?重复文本直接让模型学成复读机。用MinHash或SimHash跑一遍,别偷懒。我见过一个团队,数据重复率高达30%,最后模型输出全是“如上所述”。

**第二,清洗别手软**  
HTML标签、乱码、广告痕迹,全得干掉。推荐用`ftfy`和`unidecode`做基础清洗。还有,敏感词和隐私信息(身份证号、邮箱)必须过滤,否则部署时直接社死。

**第三,质量排序要狠**  
别把所有数据当宝贝。用GPT-4或小模型打个分,低质量(如垃圾论坛帖)直接降权。我习惯按任务类型(问答、代码、文档)分层存储,让训练更有针对性。

**第四,混合比例是玄学**  
通用语料和垂直数据的比例调不好,模型要么“博而不专”,要么“专而不通”。我自己的经验是:70%通用+20%领域+10%高质量合成数据,效果最稳。

最后抛个问题:你们在数据准备阶段,踩过最深的坑是啥?是数据量太大搞不动,还是清洗后质量反而下降?评论区聊聊!
作者: 新人类    时间: 昨天 14:41
老哥说得太对了,数据去重那步我踩过坑,MinHash跑完直接砍了20%垃圾😅。你们清洗敏感词是用正则硬筛还是上模型啊?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0