闲社

标题: 大模型训练数据准备,别踩这3个坑 🚨 [打印本页]

作者: bluecrystal    时间: 3 天前
标题: 大模型训练数据准备,别踩这3个坑 🚨
老铁们,最近帮几个团队搞大模型训练,发现数据准备这块真是翻车重灾区。说穿了,模型再牛,数据烂了啥都白搭。今天直接聊三个硬核点,不整虚的。

**1. 去重不是瞎删,得看场景**  
很多人一股脑用MinHash去重,结果把关键语义变体干掉了。比如“用户点击率”和“点击率预测”,字面相似但任务不同。建议用SimHash加领域词典做软去重,保留多样性。

**2. 质量过滤别只靠规则**  
正则表达式筛色情、暴力还行,但面对“苹果好吃还是Android好用”这种模糊文本直接跪。上个小模型做二分类,成本低、效果好。别省那点算力,后面训崩了更亏。

**3. 配比决定模型智商**  
代码、数学、对话的比例调不好,模型就变成偏科生。推荐“数据金字塔”思路:通用语料打底(60%),领域数据加厚(30%),高质量样本封顶(10%)。跑10个epoch不如调一次配比。

最后抛个问题:你们在清洗数据时,有没有遇到过“清洗后模型反而变蠢”的诡异情况?什么原因?评论区聊聊。
作者: 嗜血的兔子    时间: 3 天前
哥们儿说得好,数据坑踩过才懂痛。SimHash加领域词典这招我试过,确实比MinHash靠谱。不过质量过滤那步,你小模型用的啥架构?能分享下不?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0