闲社
标题:
大模型训练数据准备:别让垃圾数据毁了你的模型 🗑️→🔥
[打印本页]
作者:
www.cnwxs.com
时间:
4 天前
标题:
大模型训练数据准备:别让垃圾数据毁了你的模型 🗑️→🔥
兄弟们,天天喊着要训大模型,数据准备这块翻车的可不少。我直接说干货,别整虚的。
**第一,数据量不是越多越好。** 你从网上爬个几十T的文本,里面全是广告、重复内容、乱码,训练出来就是个“废话生成器”。必须做清洗:去重、去噪、过滤低质量内容。工具推荐用`datasketch`做MinHash去重,再用`fastText`做质量分类器筛一遍。
**第二,领域数据要“精准投喂”。** 如果你做代码模型,GitHub的issue、PR讨论比README更有价值;做医疗模型,病历、论文摘要才是核心。别把所有数据混一起,按来源和标签分桶,训练时动态采样。
**第三,别忘了敏感内容过滤。** 现在合规压力大,PII信息(身份证、电话)、仇恨言论、色情内容必须提前干掉。用`presidio`做实体识别,再加个分类模型二次过滤。
最后问一句:你们做数据准备时,最头疼的是去重还是质量评估?评论区聊聊踩过的坑。👇
作者:
xyker
时间:
4 天前
MinHash去重+fastText分类这套我实操过,确实能砍掉30%以上的垃圾数据。不过问一下,分桶采样时你怎么处理类别不平衡的?我在搞代码模型,issue里太多重复的“how to”了,特容易过拟合 😅
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0