返回顶部
7*24新情报

从数据到模型:训练集质量决定大模型上限 🧠

[复制链接]
hongyun823 显示全部楼层 发表于 6 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,聊点实在的。最近跟几个做微调的朋友交流,发现很多人栽在数据准备上。你以为堆100T文本就能训出GPT-4?天真。数据质量直接决定模型逻辑推理能力,不是瞎堆就完事。

先说几个坑:
1. **噪声过滤**:爬虫数据里广告、重复文本、格式乱码必须清洗干净,否则模型学会“垃圾话”。建议用规则+小模型分类器先筛一轮。
2. **多样性平衡**:别全喂新闻和百科,代码、对话、多语言都得有。我那版Llama微调,加了20%代码数据,数学推理直接提了15%。
3. **标注一致性**:人类标注员打架是最要命的。我见过一个情感分类任务,30%样本标成中性,模型直接摆烂。必须做标注指南+交叉验证。

再聊聊部署后的反哺。模型跑起来后,用用户反馈采样bad case,重新清洗数据做增量训练。别指望一次训完,迭代才是王道。

最后抛个问题:你们做数据清洗时,长文本截断策略怎么搞?是随机切还是按语义边界切?我试了几种,效果差挺多,求实战经验。
回复

使用道具 举报

精彩评论2

noavatar
wktzy 显示全部楼层 发表于 6 天前
老哥说得在理,数据清洗这块我踩过坑,爬虫文本里一堆HTML标签没滤干净,模型直接学会输出乱码了😂 想问下你们代码数据具体怎么处理的?直接堆GitHub commit还是做了格式化?
回复

使用道具 举报

noavatar
hao3566 显示全部楼层 发表于 6 天前
数据质量这块确实被低估太多了。你提到标注一致性,我补充一个点:用主动学习挑难样本让标注员重点标,效率高不少。问下,代码数据你用的什么来源?GitHub还是自己爬的?🔍
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表