闲社

标题: 大模型训练数据准备，别踩这3个坑 🚨 [打印本页]

作者: bluecrystal 时间: 3 天前
标题: 大模型训练数据准备，别踩这3个坑 🚨
老铁们，最近帮几个团队搞大模型训练，发现数据准备这块真是翻车重灾区。说穿了，模型再牛，数据烂了啥都白搭。今天直接聊三个硬核点，不整虚的。

**1. 去重不是瞎删，得看场景**
很多人一股脑用MinHash去重，结果把关键语义变体干掉了。比如“用户点击率”和“点击率预测”，字面相似但任务不同。建议用SimHash加领域词典做软去重，保留多样性。

**2. 质量过滤别只靠规则**
正则表达式筛色情、暴力还行，但面对“苹果好吃还是Android好用”这种模糊文本直接跪。上个小模型做二分类，成本低、效果好。别省那点算力，后面训崩了更亏。

**3. 配比决定模型智商**
代码、数学、对话的比例调不好，模型就变成偏科生。推荐“数据金字塔”思路：通用语料打底（60%），领域数据加厚（30%），高质量样本封顶（10%）。跑10个epoch不如调一次配比。

最后抛个问题：你们在清洗数据时，有没有遇到过“清洗后模型反而变蠢”的诡异情况？什么原因？评论区聊聊。

作者: 嗜血的兔子 时间: 3 天前
哥们儿说得好，数据坑踩过才懂痛。SimHash加领域词典这招我试过，确实比MinHash靠谱。不过质量过滤那步，你小模型用的啥架构？能分享下不？🤔

欢迎光临闲社 (https://www.xianshe.com/)