返回顶部
7*24新情报

大模型训练数据准备,别让“垃圾数据”毁了你的炼丹炉🔥

[复制链接]
bluecrystal 显示全部楼层 发表于 昨天 09:02 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点实在的。大模型训练,数据才是王道。你以为堆算力就能出奇迹?错!数据质量不行,再贵的A100也白搭。我摸爬滚打这几年,踩过的坑比你们见过的GPU还多,今天分享几个硬核原则。

**1、去重是第一步**  
别小看,重复数据会让模型过拟合,学一堆无意义的“复读机”特征。用MinHash或SimHash跑一遍,清洗干净再炼丹。

**2、质量过滤不是玄学**  
低质量文本(比如乱码、广告、口水战)直接扔。我习惯用规则+模型打分,例如基于困惑度或分类器,筛掉底部5%,效果肉眼可见。

**3、平衡领域分布**  
不要只喂代码或只喂新闻。模型需要多样性:技术、文学、对话,比例得调。建议按任务场景配比,比如代码20%、对话30%、通用语料50%。

**4、预处理别偷懒**  
分词、脱敏、格式化,这些脏活累活省不了。我一般用tokenizer并行跑,再检查高频词的覆盖。

最后问个问题:你们现在处理TB级数据时,是上Spark还是用单机脚本凑合?来评论区说说,我看看谁还在手动改文件😏
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表