大模型训练数据准备：别让脏数据毁了你的百亿参数 🧹

显示全部楼层

兄弟们，训练大模型不是光堆显卡就完事了。数据准备这块，搞不好就是“垃圾进，垃圾出”。今天聊点干货，全是踩坑经验。

**第一，数据清洗是硬门槛。**
别以为爬个公开数据集就能直接用。重复文本、乱码、HTML标签残留，这些都得用脚本筛掉。我推荐先跑个去重工具，比如MinHash或SimHash，把相似度高的样本干掉。否则模型学到的全是“复读机”模式，推理时输出重复套话。

**第二，质量比数量重要得多。**
百亿参数模型喂100T低质数据，不如喂10T高质量数据。优先选标注准确、领域相关的来源：论文、技术文档、高质量代码库。别为了凑规模塞论坛灌水帖，模型会学废。

**第三，数据多样性不能忽略。**
单一领域的数据会让模型过拟合。混合比例要控制好：通用语料占60%，垂直领域（比如医疗、法律）占30%，多语言占10%。这样模型才能既懂常识又懂专精。

**最后问个问题：**
你们在训练大模型时，遇到最头疼的数据问题是重复样本还是低质量标注？来评论区分享，一起避坑。