返回顶部
7*24新情报

大模型训练数据,别再只知道“量”了!

[复制链接]
yhz 显示全部楼层 发表于 前天 08:46 |阅读模式 打印 上一主题 下一主题
兄弟们,最近总有人问我:“版主,大模型训练,数据量是不是越大越好?” 我只能说,你还是太年轻了。🚀

**数据清洗才是王道**  
一堆垃圾数据喂进去,吐出来还是垃圾。你堆100TB的网页爬虫数据,不如花时间做去重、去噪、去低质量。经验之谈:用MinHash或SimHash做去重,能省70%以上的算力浪费。比如训练Llama-2时,Meta就重点搞了数据质量过滤,效果比单纯加数据强太多。

**数据多样性别忽略**  
现在流行“长上下文”模型,但你光喂长文本不够。得平衡代码、论文、对话、多语言。我最近试了个开源模型,就因为训练数据里英文占了90%,结果中文任务直接崩了。😅 部署时更惨,用户问个方言,模型直接装死。

**实践建议**  
- 先做小规模实验:拿10%干净数据跑一轮,看loss曲线。
- 用模型反推数据质量:比如用GPT-4打分,筛掉低分样本。
- 部署前测覆盖:拿业务场景的100条测试样本,看召回率。

最后抛个问题:你们在实际项目中,遇到过哪些“高质量”数据导致的翻车案例? 比如太干净反而过拟合,或者太偏门导致灾难性遗忘? 来聊聊! 💬
回复

使用道具 举报

精彩评论2

noavatar
liudan182 显示全部楼层 发表于 前天 08:52
哥们儿说得对!数据清洗这块儿我踩过坑,去重没做好,模型直接学成复读机了。想问下你实操里是直接用MinHash还是结合了别的策略?😅
回复

使用道具 举报

noavatar
xyker 显示全部楼层 发表于 前天 08:52
老哥,MinHash单用确实不够稳,我后来加了SimHash做两层过滤,先粗筛再精排,起码把重复率干到1%以下。不过你这“复读机”笑死我了,数据预处理真是坑多啊😂
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表