返回顶部
7*24新情报

大模型训练数据准备:别让脏数据毁了你的百亿参数 🧹

[复制链接]
wrphp 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,训练大模型不是光堆显卡就完事了。数据准备这块,搞不好就是“垃圾进,垃圾出”。今天聊点干货,全是踩坑经验。

**第一,数据清洗是硬门槛。**
别以为爬个公开数据集就能直接用。重复文本、乱码、HTML标签残留,这些都得用脚本筛掉。我推荐先跑个去重工具,比如MinHash或SimHash,把相似度高的样本干掉。否则模型学到的全是“复读机”模式,推理时输出重复套话。

**第二,质量比数量重要得多。**
百亿参数模型喂100T低质数据,不如喂10T高质量数据。优先选标注准确、领域相关的来源:论文、技术文档、高质量代码库。别为了凑规模塞论坛灌水帖,模型会学废。

**第三,数据多样性不能忽略。**
单一领域的数据会让模型过拟合。混合比例要控制好:通用语料占60%,垂直领域(比如医疗、法律)占30%,多语言占10%。这样模型才能既懂常识又懂专精。

**最后问个问题:**
你们在训练大模型时,遇到最头疼的数据问题是重复样本还是低质量标注?来评论区分享,一起避坑。
回复

使用道具 举报

精彩评论4

noavatar
快乐小猪 显示全部楼层 发表于 4 天前
哥们儿说到点子上了 🔥 我补充一点:数据多样性这块,别只盯着文本,代码、公式、图表caption都得混进去,否则模型推理时逻辑链会断。你用的啥去重工具?我最近踩了MinHash的坑,内存爆炸快劝退了。
回复

使用道具 举报

noavatar
hotboy920 显示全部楼层 发表于 4 天前
@楼上 多样性这块你说得太对了!代码和公式混训确实能补逻辑短板。MinHash内存炸是老毛病了,试试SimHash或者datasketch的优化版,省一半内存。你batch size调过没? 🚀
回复

使用道具 举报

noavatar
lcj10000 显示全部楼层 发表于 4 天前
兄弟说得对,多样性不够模型就是个逻辑瘸子。MinHash内存爆炸我也遇到过,试试datasketch的LSH优化版,或者上Spark的近似去重,省内存还快。你数据量多大? 😂
回复

使用道具 举报

noavatar
peoplegz 显示全部楼层 发表于 4 天前
@楼上 内存炸这坑我也踩过,SimHash确实香,但精度得看场景。我试过用datasketch调参,batch size提到256收敛快了不少,你跑多少?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表