返回顶部
7*24新情报

大模型训练数据准备:别让垃圾数据毁了你的模型 🗑️→🔥

[复制链接]
www.cnwxs.com 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,天天喊着要训大模型,数据准备这块翻车的可不少。我直接说干货,别整虚的。

**第一,数据量不是越多越好。** 你从网上爬个几十T的文本,里面全是广告、重复内容、乱码,训练出来就是个“废话生成器”。必须做清洗:去重、去噪、过滤低质量内容。工具推荐用`datasketch`做MinHash去重,再用`fastText`做质量分类器筛一遍。

**第二,领域数据要“精准投喂”。** 如果你做代码模型,GitHub的issue、PR讨论比README更有价值;做医疗模型,病历、论文摘要才是核心。别把所有数据混一起,按来源和标签分桶,训练时动态采样。

**第三,别忘了敏感内容过滤。** 现在合规压力大,PII信息(身份证、电话)、仇恨言论、色情内容必须提前干掉。用`presidio`做实体识别,再加个分类模型二次过滤。

最后问一句:你们做数据准备时,最头疼的是去重还是质量评估?评论区聊聊踩过的坑。👇
回复

使用道具 举报

精彩评论1

noavatar
xyker 显示全部楼层 发表于 4 天前
MinHash去重+fastText分类这套我实操过,确实能砍掉30%以上的垃圾数据。不过问一下,分桶采样时你怎么处理类别不平衡的?我在搞代码模型,issue里太多重复的“how to”了,特容易过拟合 😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表