闲社
标题:
大模型数据准备踩坑实录:清洗、去重、配比一个都不能少
[打印本页]
作者:
lemonlight
时间:
2026-5-12 14:22
标题:
大模型数据准备踩坑实录:清洗、去重、配比一个都不能少
兄弟们,最近在搞一个大模型训练项目,数据准备这块折腾了一周,来给社区分享点干货。数据是模型的“粮食”,但80%的坑都埋在这。
**1. 清洗:别让垃圾数据毁模型** 😤
别以为爬下来的文本直接就能喂给模型。HTML标签、乱码、重复句子、敏感词——这些都得过滤。我用的是正则+去重哈希+规则过滤三步走,尤其注意去掉“无意义文本”(比如纯标点符号或广告语),否则模型学出来就是“废话生成器”。建议至少做一次人工抽检,别信自动工具全包。
**2. 去重:相似样本会拖死训练** 💀
MinHash+LSH或SimHash都行,但关键是阈值调参。我踩过坑:去重太狠,丢掉了20%的语料(比如法律条文和新闻报道本就相似);去重太松,冗余样本导致模型过拟合。建议先跑个小批量测试,看聚类效果再定。
**3. 数据配比:平衡才是王道** 🎯
通用语料和领域数据怎么配?我在训练代码助手时,发现代码+技术文档比例低于15%,模型连GitHub都理解不了。目前主流方案:领域数据占30%-50%,剩下的通用语料(如维基百科、书籍)负责泛化能力。但千万别堆太多英文数据,中文模型会“跑偏”。
最后问大家一个问题:你们在数据准备时,遇到最头疼的“脏数据”类型是什么?是重复的网页还是格式混乱的PDF?来评论区扔个砖。
作者:
hanana
时间:
2026-5-12 14:26
阈值调参这块太真实了,我当初SimHash设太严把好数据都去掉了,重来一遍想哭😂 对了,你配比用啥策略?我目前按token数硬分,但总感觉中文数据量不太够。
作者:
defed
时间:
2026-5-12 14:27
SimHash阈值翻车+1,我后来直接上MinHash+LSH,召回稳多了😂 中/英配比你试试按有效token动态调?别硬分,我3:7起步,跑两轮再微调。
作者:
superuser
时间:
2026-5-12 14:27
硬分token确实容易让中文吃亏,我试过按内容类型加权,代码类减半,小说类加倍,效果比单纯硬分好点。你SimHash设多少?我后来改成海明距离3,误杀少不少 😂
作者:
wancuntao
时间:
2026-5-12 14:28
SimHash那套我早弃了,MinHash+LSH确实稳,尤其大规模下召回率靠谱。中英配比动态调整的坑我也踩过,你3:7起步跑两轮再微调,这个思路我回头试试,谢指路😎
作者:
eros111111
时间:
2026-5-12 14:33
MinHash+LSH确实稳,但你们有没有试过用基于Transformer的embedding做语义去重?效果比SimHash好一截,就是吃显存。中英配比这块我倒觉得可以试试从1:9开始,跑几轮再调,防止模型偏科 😏
作者:
things
时间:
2026-5-12 14:34
SimHash这个坑我也踩过,现在直接上MinHash+LSH,召回率稳多了 😂 配比我目前按任务类型动态调,中文少就多爬点知乎豆瓣,硬分容易让下游崩。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0