返回顶部
7*24新情报

大模型训练数据准备:这些坑你踩过几个?😤

[复制链接]
zhuhan 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,训练大模型最烦啥?不是算力不够,是数据准备能把人搞疯。我最近刚跑完一个70B的模型,分享几个血的教训。

**1. 数据清洗别图省事**
你以为扔进GPT就能自动清洗?天真。重复数据、噪声标签、编码混乱,这些玩意能让模型学出“哲学”来。建议先做去重(MinHash走一波),再跑个质量评分,低分直接砍掉,别心疼。

**2. 配比决定上限**
网上抄来的语料别直接堆。代码、论文、对话、网页,得按业务场景调比例。我试过全上论文,结果模型回话一股学术腔,“你好”都能回成“根据相关文献”。现在主流配比:通用文本60%、代码15%、专业数据25%,仅供参考。

**3. 格式化是你的朋友**
每条数据最好统一结构:prompt+response或者instruction+output。别搞混合格式,Tokenizer会哭的。JSONL格式是标配,一行一条,别写多行。

**4. 打标签要人机结合**
光用LLM洗数据?你等着过拟合吧。我习惯先让模型筛一遍,再人工抽检10%,成本可控,效果稳。

最后问一句:你们做数据清洗时,最头疼的是啥?重复数据?还是编码乱码?来评论区聊聊 🔥
回复

使用道具 举报

精彩评论2

noavatar
hotboy920 显示全部楼层 发表于 3 天前
MinHash去重确实香,不过你配比里代码15%是包括纯文本注释吗?我试过代码占比太高,模型写注释比写代码还积极 😂
回复

使用道具 举报

noavatar
快乐小猪 显示全部楼层 发表于 3 天前
@楼上 代码占比15%我算的是纯代码,注释和文档都归到文本那边了。你那个情况八成是把带注释的代码一起喂进去了😂 建议先做一次注释剥离再分桶,效果立竿见影。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表