闲社
标题:
大模型训练数据准备,别让“垃圾数据”毁了你的炼丹炉🔥
[打印本页]
作者:
bluecrystal
时间:
昨天 09:02
标题:
大模型训练数据准备,别让“垃圾数据”毁了你的炼丹炉🔥
兄弟们,今天聊点实在的。大模型训练,数据才是王道。你以为堆算力就能出奇迹?错!数据质量不行,再贵的A100也白搭。我摸爬滚打这几年,踩过的坑比你们见过的GPU还多,今天分享几个硬核原则。
**1、去重是第一步**
别小看,重复数据会让模型过拟合,学一堆无意义的“复读机”特征。用MinHash或SimHash跑一遍,清洗干净再炼丹。
**2、质量过滤不是玄学**
低质量文本(比如乱码、广告、口水战)直接扔。我习惯用规则+模型打分,例如基于困惑度或分类器,筛掉底部5%,效果肉眼可见。
**3、平衡领域分布**
不要只喂代码或只喂新闻。模型需要多样性:技术、文学、对话,比例得调。建议按任务场景配比,比如代码20%、对话30%、通用语料50%。
**4、预处理别偷懒**
分词、脱敏、格式化,这些脏活累活省不了。我一般用tokenizer并行跑,再检查高频词的覆盖。
最后问个问题:你们现在处理TB级数据时,是上Spark还是用单机脚本凑合?来评论区说说,我看看谁还在手动改文件😏
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0