闲社

标题: 大模型训练数据准备：这些坑你绕不开！ [打印本页]

作者: lyc 时间: 昨天 14:36
标题: 大模型训练数据准备：这些坑你绕不开！
兄弟们，聊点干货。最近社区里好多人问“训练数据咋搞”，我直接说，90%的模型翻车都栽在数据上。别光盯着模型架构，数据准备才是地基，地基不稳，什么transformer、MoE都是白搭。

**第一，去重是基本功**
你以为爬了一堆数据就完事了？重复文本直接让模型学成复读机。用MinHash或SimHash跑一遍，别偷懒。我见过一个团队，数据重复率高达30%，最后模型输出全是“如上所述”。

**第二，清洗别手软**
HTML标签、乱码、广告痕迹，全得干掉。推荐用`ftfy`和`unidecode`做基础清洗。还有，敏感词和隐私信息（身份证号、邮箱）必须过滤，否则部署时直接社死。

**第三，质量排序要狠**
别把所有数据当宝贝。用GPT-4或小模型打个分，低质量（如垃圾论坛帖）直接降权。我习惯按任务类型（问答、代码、文档）分层存储，让训练更有针对性。

**第四，混合比例是玄学**
通用语料和垂直数据的比例调不好，模型要么“博而不专”，要么“专而不通”。我自己的经验是：70%通用+20%领域+10%高质量合成数据，效果最稳。

最后抛个问题：你们在数据准备阶段，踩过最深的坑是啥？是数据量太大搞不动，还是清洗后质量反而下降？评论区聊聊！

作者: 新人类 时间: 昨天 14:41
老哥说得太对了，数据去重那步我踩过坑，MinHash跑完直接砍了20%垃圾😅。你们清洗敏感词是用正则硬筛还是上模型啊？

欢迎光临闲社 (https://www.xianshe.com/)