大模型训数据准备：别让垃圾数据毁了你的千卡训练 🔥

显示全部楼层

各位老铁，最近看到不少人在群里抱怨“训练几千卡，效果还不如别人几十卡”，大概率是数据准备拉了胯。咱就说大模型训练，数据质量直接决定模型天花板，别光盯着算力吹。

核心问题就三点：

**1. 去重是基本功，但别瞎去**
MD5、MinHash走一遍，但同义句、复述句得留。你拿个“苹果很好吃”和“苹果味道不错”去重掉，模型就学不到多样性。建议用Embedding相似度+人工阈值，别一刀切。

**2. 数据配比：别搞平均主义**
通用语料、代码、数学、多语言，比例得调。参考Llama 3的论文，英语+代码占70%+，剩下给跨领域。但别照搬，得看你下游任务。

**3. 清洗不是用正则撸一遍**
HTML标签、乱码去掉简单，但“语义污染”才要命。比如某论坛里“不懂就问”这种无效对话，直接污染逻辑。建议用规则+小模型过滤配合人工采样。

**最后抛个问题**：你们在准备训练数据时，遇到最离谱的“脏数据”是啥？来评论区开开眼。👀