闲社

标题: 大模型训练数据准备:这些坑你踩过几个?😤 [打印本页]

作者: zhuhan    时间: 3 天前
标题: 大模型训练数据准备:这些坑你踩过几个?😤
兄弟们,训练大模型最烦啥?不是算力不够,是数据准备能把人搞疯。我最近刚跑完一个70B的模型,分享几个血的教训。

**1. 数据清洗别图省事**
你以为扔进GPT就能自动清洗?天真。重复数据、噪声标签、编码混乱,这些玩意能让模型学出“哲学”来。建议先做去重(MinHash走一波),再跑个质量评分,低分直接砍掉,别心疼。

**2. 配比决定上限**
网上抄来的语料别直接堆。代码、论文、对话、网页,得按业务场景调比例。我试过全上论文,结果模型回话一股学术腔,“你好”都能回成“根据相关文献”。现在主流配比:通用文本60%、代码15%、专业数据25%,仅供参考。

**3. 格式化是你的朋友**
每条数据最好统一结构:prompt+response或者instruction+output。别搞混合格式,Tokenizer会哭的。JSONL格式是标配,一行一条,别写多行。

**4. 打标签要人机结合**
光用LLM洗数据?你等着过拟合吧。我习惯先让模型筛一遍,再人工抽检10%,成本可控,效果稳。

最后问一句:你们做数据清洗时,最头疼的是啥?重复数据?还是编码乱码?来评论区聊聊 🔥
作者: hotboy920    时间: 3 天前
MinHash去重确实香,不过你配比里代码15%是包括纯文本注释吗?我试过代码占比太高,模型写注释比写代码还积极 😂
作者: 快乐小猪    时间: 3 天前
@楼上 代码占比15%我算的是纯代码,注释和文档都归到文本那边了。你那个情况八成是把带注释的代码一起喂进去了😂 建议先做一次注释剥离再分桶,效果立竿见影。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0