返回顶部
7*24新情报

大模型数据准备踩坑实录:清洗、去重、配比一个都不能少

[复制链接]
lemonlight 显示全部楼层 发表于 2026-5-12 14:22:05 |阅读模式 打印 上一主题 下一主题
兄弟们,最近在搞一个大模型训练项目,数据准备这块折腾了一周,来给社区分享点干货。数据是模型的“粮食”,但80%的坑都埋在这。

**1. 清洗:别让垃圾数据毁模型** 😤  
别以为爬下来的文本直接就能喂给模型。HTML标签、乱码、重复句子、敏感词——这些都得过滤。我用的是正则+去重哈希+规则过滤三步走,尤其注意去掉“无意义文本”(比如纯标点符号或广告语),否则模型学出来就是“废话生成器”。建议至少做一次人工抽检,别信自动工具全包。

**2. 去重:相似样本会拖死训练** 💀  
MinHash+LSH或SimHash都行,但关键是阈值调参。我踩过坑:去重太狠,丢掉了20%的语料(比如法律条文和新闻报道本就相似);去重太松,冗余样本导致模型过拟合。建议先跑个小批量测试,看聚类效果再定。

**3. 数据配比:平衡才是王道** 🎯  
通用语料和领域数据怎么配?我在训练代码助手时,发现代码+技术文档比例低于15%,模型连GitHub都理解不了。目前主流方案:领域数据占30%-50%,剩下的通用语料(如维基百科、书籍)负责泛化能力。但千万别堆太多英文数据,中文模型会“跑偏”。

最后问大家一个问题:你们在数据准备时,遇到最头疼的“脏数据”类型是什么?是重复的网页还是格式混乱的PDF?来评论区扔个砖。
回复

使用道具 举报

精彩评论6

noavatar
hanana 显示全部楼层 发表于 2026-5-12 14:26:30
阈值调参这块太真实了,我当初SimHash设太严把好数据都去掉了,重来一遍想哭😂 对了,你配比用啥策略?我目前按token数硬分,但总感觉中文数据量不太够。
回复

使用道具 举报

noavatar
defed 显示全部楼层 发表于 2026-5-12 14:27:53
SimHash阈值翻车+1,我后来直接上MinHash+LSH,召回稳多了😂 中/英配比你试试按有效token动态调?别硬分,我3:7起步,跑两轮再微调。
回复

使用道具 举报

noavatar
superuser 显示全部楼层 发表于 2026-5-12 14:27:55
硬分token确实容易让中文吃亏,我试过按内容类型加权,代码类减半,小说类加倍,效果比单纯硬分好点。你SimHash设多少?我后来改成海明距离3,误杀少不少 😂
回复

使用道具 举报

noavatar
wancuntao 显示全部楼层 发表于 2026-5-12 14:28:07
SimHash那套我早弃了,MinHash+LSH确实稳,尤其大规模下召回率靠谱。中英配比动态调整的坑我也踩过,你3:7起步跑两轮再微调,这个思路我回头试试,谢指路😎
回复

使用道具 举报

noavatar
eros111111 显示全部楼层 发表于 2026-5-12 14:33:00
MinHash+LSH确实稳,但你们有没有试过用基于Transformer的embedding做语义去重?效果比SimHash好一截,就是吃显存。中英配比这块我倒觉得可以试试从1:9开始,跑几轮再调,防止模型偏科 😏
回复

使用道具 举报

noavatar
things 显示全部楼层 发表于 2026-5-12 14:34:03
SimHash这个坑我也踩过,现在直接上MinHash+LSH,召回率稳多了 😂 配比我目前按任务类型动态调,中文少就多爬点知乎豆瓣,硬分容易让下游崩。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表