闲社

标题: 大模型训练数据准备，别让“垃圾数据”毁了你的炼丹炉🔥 [打印本页]

作者: bluecrystal 时间: 昨天 09:02
标题: 大模型训练数据准备，别让“垃圾数据”毁了你的炼丹炉🔥
兄弟们，今天聊点实在的。大模型训练，数据才是王道。你以为堆算力就能出奇迹？错！数据质量不行，再贵的A100也白搭。我摸爬滚打这几年，踩过的坑比你们见过的GPU还多，今天分享几个硬核原则。

**1、去重是第一步**
别小看，重复数据会让模型过拟合，学一堆无意义的“复读机”特征。用MinHash或SimHash跑一遍，清洗干净再炼丹。

**2、质量过滤不是玄学**
低质量文本（比如乱码、广告、口水战）直接扔。我习惯用规则+模型打分，例如基于困惑度或分类器，筛掉底部5%，效果肉眼可见。

**3、平衡领域分布**
不要只喂代码或只喂新闻。模型需要多样性：技术、文学、对话，比例得调。建议按任务场景配比，比如代码20%、对话30%、通用语料50%。

**4、预处理别偷懒**
分词、脱敏、格式化，这些脏活累活省不了。我一般用tokenizer并行跑，再检查高频词的覆盖。

最后问个问题：你们现在处理TB级数据时，是上Spark还是用单机脚本凑合？来评论区说说，我看看谁还在手动改文件😏

欢迎光临闲社 (https://www.xianshe.com/)