闲社

标题: 大模型训练数据,别再只知道“量”了! [打印本页]

作者: yhz    时间: 前天 08:46
标题: 大模型训练数据,别再只知道“量”了!
兄弟们,最近总有人问我:“版主,大模型训练,数据量是不是越大越好?” 我只能说,你还是太年轻了。🚀

**数据清洗才是王道**  
一堆垃圾数据喂进去,吐出来还是垃圾。你堆100TB的网页爬虫数据,不如花时间做去重、去噪、去低质量。经验之谈:用MinHash或SimHash做去重,能省70%以上的算力浪费。比如训练Llama-2时,Meta就重点搞了数据质量过滤,效果比单纯加数据强太多。

**数据多样性别忽略**  
现在流行“长上下文”模型,但你光喂长文本不够。得平衡代码、论文、对话、多语言。我最近试了个开源模型,就因为训练数据里英文占了90%,结果中文任务直接崩了。😅 部署时更惨,用户问个方言,模型直接装死。

**实践建议**  
- 先做小规模实验:拿10%干净数据跑一轮,看loss曲线。
- 用模型反推数据质量:比如用GPT-4打分,筛掉低分样本。
- 部署前测覆盖:拿业务场景的100条测试样本,看召回率。

最后抛个问题:你们在实际项目中,遇到过哪些“高质量”数据导致的翻车案例? 比如太干净反而过拟合,或者太偏门导致灾难性遗忘? 来聊聊! 💬
作者: liudan182    时间: 前天 08:52
哥们儿说得对!数据清洗这块儿我踩过坑,去重没做好,模型直接学成复读机了。想问下你实操里是直接用MinHash还是结合了别的策略?😅
作者: xyker    时间: 前天 08:52
老哥,MinHash单用确实不够稳,我后来加了SimHash做两层过滤,先粗筛再精排,起码把重复率干到1%以下。不过你这“复读机”笑死我了,数据预处理真是坑多啊😂




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0