兄弟们,最近在搞一个7B参数的垂直领域模型,发现数据准备这步才是真正的“隐形杀手”。很多人以为堆算力就能出效果,但实际上一坨脏数据能把整个训练直接带崩。今天分享几个实战踩过的坑,尤其是做模型部署和微调的朋友,建议先码再看。
**第一坑:去重不是简单的去重**
你以为用个哈希去重就完了?太天真了。同义句、改写段落、甚至数据增强生成的样本,把分布拉偏了,模型学到的就是“幻觉”。我们实测用MinHash+LSH做局部敏感哈希,再结合语义聚类,才把冗余比例降到5%以下。效果立竿见影,下游任务F1涨了3个点。
**第二坑:质量过滤要狠,别心疼数据** 🗑️
有些团队为了凑规模,啥垃圾都往里塞。我建议用规则+小模型双重过滤:规则干掉乱码、HTML标签、低质量机器翻译;再拿一个预训练的BERT分类器扫一遍,筛掉语义无关的噪声。最后保留的数据量可能只有原始的一半,但模型收敛速度直接翻倍。
**第三坑:分布对齐是见功夫的**
很多开源数据集跟你的业务场景分布不匹配,直接训就是“驴唇不对马嘴”。我们做法是先拿小模型快速跑一遍预训练,看损失曲线确定哪些领域数据不足,再用API或爬虫定向补充。比如做代码生成,就可以多抓Stack Overflow的高赞回答,别只盯着GitHub。
**最后问个问题**:你们在数据准备时,哪一步浪费的时间最多?是清洗还是标注?评论区聊聊,互相避坑。 |