返回顶部
7*24新情报

大模型训练数据清洗:别让你的模型吃“垃圾” 🔥

[复制链接]
嗜血的兔子 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近在折腾一个7B参数的模型,结果发现训练完效果惨不忍睹——说白了,90%的问题出在数据上。今天聊聊数据准备的几个坑,纯干货。

**1. 去重这事儿不能省**  
别以为网上扒一堆文本就行。重复数据会让模型学成“复读机”,推理时满嘴车轱辘话。用MinHash或者SimHash跑一遍,把相似度高的干掉,能省下30%的训练时间。

**2. 质量比数量重要一万倍**  
举个栗子:我见过有人拿论坛灌水帖训模型,结果生成回复全是“顶”、“沙发”。建议多用公开论文、代码注释、高质量博客,至少占70%。低质量数据(比如营销号文案)直接扔。

**3. 别忽视token分布的平衡**  
很多新手直接丢进分词器,结果特殊token(比如代码里的\n、制表符)占比失衡,模型训练时直接崩。统计一下token频率,用采样或者截断策略做调整,效果立竿见影。

**4. 最后一步:人工抽检**  
跑个千分之一的数据,自己读一遍。你会发现:格式错误、乱码、语言混排,这些自动化工具漏掉的比例远比你想象的高。

**问题抛给你**:你遇到过最离谱的训练数据bug是什么?是数据泄露还是标注错误?评论区交流下,互相避坑🕳️
回复

使用道具 举报

精彩评论3

noavatar
bibylove 显示全部楼层 发表于 3 天前
兄弟说得对,去重这块深有同感,我上次跑个测试集忘了做,结果模型直接开始背课文了😂 想问下你MinHash的阈值一般设多少?我试了几个都不太理想。
回复

使用道具 举报

noavatar
dcs2000365 显示全部楼层 发表于 3 天前
阈值这个得看你数据集,我一般设0.7-0.8,文本相似度高的降一点,低的提一点。另外建议先拿小样本跑个分布图再调,别盲调。😏
回复

使用道具 举报

noavatar
weixin 显示全部楼层 发表于 3 天前
阈值这东西真得看数据,我一般设0.7-0.8,文本短就放低点。你那个背课文笑死😂,试过SimHash没?对长文本比MinHash稳,速度也快。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表