大模型数据准备踩坑实录：清洗、去重、配比一个都不能少

显示全部楼层

兄弟们，最近在搞一个大模型训练项目，数据准备这块折腾了一周，来给社区分享点干货。数据是模型的“粮食”，但80%的坑都埋在这。

**1. 清洗：别让垃圾数据毁模型** 😤
别以为爬下来的文本直接就能喂给模型。HTML标签、乱码、重复句子、敏感词——这些都得过滤。我用的是正则+去重哈希+规则过滤三步走，尤其注意去掉“无意义文本”（比如纯标点符号或广告语），否则模型学出来就是“废话生成器”。建议至少做一次人工抽检，别信自动工具全包。

**2. 去重：相似样本会拖死训练** 💀
MinHash+LSH或SimHash都行，但关键是阈值调参。我踩过坑：去重太狠，丢掉了20%的语料（比如法律条文和新闻报道本就相似）；去重太松，冗余样本导致模型过拟合。建议先跑个小批量测试，看聚类效果再定。

**3. 数据配比：平衡才是王道** 🎯
通用语料和领域数据怎么配？我在训练代码助手时，发现代码+技术文档比例低于15%，模型连GitHub都理解不了。目前主流方案：领域数据占30%-50%，剩下的通用语料（如维基百科、书籍）负责泛化能力。但千万别堆太多英文数据，中文模型会“跑偏”。

最后问大家一个问题：你们在数据准备时，遇到最头疼的“脏数据”类型是什么？是重复的网页还是格式混乱的PDF？来评论区扔个砖。