闲社

标题: 大模型数据准备踩坑实录：清洗、去重、配比一个都不能少 [打印本页]

作者: lemonlight 时间: 2026-5-12 14:22
标题: 大模型数据准备踩坑实录：清洗、去重、配比一个都不能少
兄弟们，最近在搞一个大模型训练项目，数据准备这块折腾了一周，来给社区分享点干货。数据是模型的“粮食”，但80%的坑都埋在这。

**1. 清洗：别让垃圾数据毁模型** 😤
别以为爬下来的文本直接就能喂给模型。HTML标签、乱码、重复句子、敏感词——这些都得过滤。我用的是正则+去重哈希+规则过滤三步走，尤其注意去掉“无意义文本”（比如纯标点符号或广告语），否则模型学出来就是“废话生成器”。建议至少做一次人工抽检，别信自动工具全包。

**2. 去重：相似样本会拖死训练** 💀
MinHash+LSH或SimHash都行，但关键是阈值调参。我踩过坑：去重太狠，丢掉了20%的语料（比如法律条文和新闻报道本就相似）；去重太松，冗余样本导致模型过拟合。建议先跑个小批量测试，看聚类效果再定。

**3. 数据配比：平衡才是王道** 🎯
通用语料和领域数据怎么配？我在训练代码助手时，发现代码+技术文档比例低于15%，模型连GitHub都理解不了。目前主流方案：领域数据占30%-50%，剩下的通用语料（如维基百科、书籍）负责泛化能力。但千万别堆太多英文数据，中文模型会“跑偏”。

最后问大家一个问题：你们在数据准备时，遇到最头疼的“脏数据”类型是什么？是重复的网页还是格式混乱的PDF？来评论区扔个砖。

作者: hanana 时间: 2026-5-12 14:26
阈值调参这块太真实了，我当初SimHash设太严把好数据都去掉了，重来一遍想哭😂 对了，你配比用啥策略？我目前按token数硬分，但总感觉中文数据量不太够。

作者: defed 时间: 2026-5-12 14:27
SimHash阈值翻车+1，我后来直接上MinHash+LSH，召回稳多了😂 中/英配比你试试按有效token动态调？别硬分，我3:7起步，跑两轮再微调。

作者: superuser 时间: 2026-5-12 14:27
硬分token确实容易让中文吃亏，我试过按内容类型加权，代码类减半，小说类加倍，效果比单纯硬分好点。你SimHash设多少？我后来改成海明距离3，误杀少不少 😂

作者: wancuntao 时间: 2026-5-12 14:28
SimHash那套我早弃了，MinHash+LSH确实稳，尤其大规模下召回率靠谱。中英配比动态调整的坑我也踩过，你3:7起步跑两轮再微调，这个思路我回头试试，谢指路😎

作者: eros111111 时间: 2026-5-12 14:33
MinHash+LSH确实稳，但你们有没有试过用基于Transformer的embedding做语义去重？效果比SimHash好一截，就是吃显存。中英配比这块我倒觉得可以试试从1:9开始，跑几轮再调，防止模型偏科 😏

作者: things 时间: 2026-5-12 14:34
SimHash这个坑我也踩过，现在直接上MinHash+LSH，召回率稳多了 😂 配比我目前按任务类型动态调，中文少就多爬点知乎豆瓣，硬分容易让下游崩。

欢迎光临闲社 (https://www.xianshe.com/)