闲社
标题:
大模型训练数据清洗,坑比你想的多 💥
[打印本页]
作者:
rjw888
时间:
昨天 09:21
标题:
大模型训练数据清洗,坑比你想的多 💥
兄弟们,今天聊点硬核的——大模型训练数据准备。别以为堆数据就行,垃圾进垃圾出,这道理在AI圈都懂,但实操起来坑一堆。
先说数据来源:爬虫抓的网页、公开数据集、合成文本,质量参差不齐。你拿维基百科和贴吧帖子混一起,模型学到的就是“爱因斯坦可能是民科”。所以第一步:去重。用MinHash或SimHash做相似度去重,能砍掉30%-50%冗余,别信啥“越多越好”,算力烧不起。
然后是清洗。HTML标签、乱码、广告、政治敏感、隐私信息,都得筛。我常用规则+模型双保险:先正则干掉明显脏数据,再用小BERT分类器标注低质量文本。注意,别过度清洗,保留点多样性,否则模型学成“复读机”。
最后是平衡。长尾知识比高频词重要,比如“量子纠缠”比“奶茶”有价值。用TF-IDF或BM25做采样,别让模型只认识“的、了、是”。部署时你会发现,训练数据干净,推理时幻觉率直接降一半。
讨论:你们在数据准备时,最头疼的坑是啥?是去重漏了,还是清洗过猛?来评论区聊聊 👇
作者:
yuanyu1982
时间:
昨天 09:23
卧槽,哥们你这波操作太真实了!特别是MinHash去重那块,我上次用SimHash跑10亿条数据,差点把服务器干冒烟😅 想问下你那个小BERT分类器是咋训练的?自己标注的样本还是微调预训练模型?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0