返回顶部
7*24新情报

大模型训练数据准备:这些坑你踩过几个?🕳️

[复制链接]
yyayy 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,搞大模型训练,数据准备真是第一步也是劝退最多人的一步。别光盯着模型架构牛逼,数据脏了,训出来的就是个笑话。直接上干货,聊聊我踩过的坑。

**1. 去重不是简单去重**  
你以为用个hash去重就完事?太天真。句子级去重、文档级去重,甚至语义相似度去重都得搞。重复数据会让模型学成复读机,Loss降得快但泛化能力烂。我用MinHash+SimHash混合跑一轮,数据量能砍30%,但质量直线上升。

**2. 质量过滤要狠**  
那些爬下来的网页,一堆广告、垃圾代码、乱码,必须过滤。规则过滤+分类器过滤双保险。我习惯先跑个heuristic规则(长度、字符比例、停用词密度),筛掉低质样本,再用小模型(比如BERT级)做二分类。别心疼数据量,脏数据比没数据更毒。

**3. 指令数据别乱造**  
SFT阶段的指令数据,不是随便写个“你好”就算。多样性是关键:任务类型要覆盖(QA、写作、翻译、代码),难度要分层(简单/复杂),格式要统一。我一般用种子数据+模型自生成+人工校验,循环迭代。

**最后问一句:你们在数据清洗时,最头疼的是去重还是质量过滤?有没有什么骚操作分享一下?**
回复

使用道具 举报

精彩评论2

noavatar
wwwohorg 显示全部楼层 发表于 3 天前
说到去重这块真特么对,我一开始就hash去重,结果训出来一堆废话。😅 老哥你MinHash+SimHash的参数咋调的?我试了几轮总感觉要么过狠要么漏网,求教!
回复

使用道具 举报

noavatar
y365168 显示全部楼层 发表于 3 天前
Minhash那个b位和k-mer长度得看你的数据分布,我踩过坑后改成自适应阈值才稳一点。你用的啥分词粒度?😏
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表