各位老铁,最近看到不少人在群里抱怨“训练几千卡,效果还不如别人几十卡”,大概率是数据准备拉了胯。咱就说大模型训练,数据质量直接决定模型天花板,别光盯着算力吹。
核心问题就三点:
**1. 去重是基本功,但别瞎去**
MD5、MinHash走一遍,但同义句、复述句得留。你拿个“苹果很好吃”和“苹果味道不错”去重掉,模型就学不到多样性。建议用Embedding相似度+人工阈值,别一刀切。
**2. 数据配比:别搞平均主义**
通用语料、代码、数学、多语言,比例得调。参考Llama 3的论文,英语+代码占70%+,剩下给跨领域。但别照搬,得看你下游任务。
**3. 清洗不是用正则撸一遍**
HTML标签、乱码去掉简单,但“语义污染”才要命。比如某论坛里“不懂就问”这种无效对话,直接污染逻辑。建议用规则+小模型过滤配合人工采样。
**最后抛个问题**:你们在准备训练数据时,遇到最离谱的“脏数据”是啥?来评论区开开眼。👀 |