闲社

标题: 从数据到模型:训练集质量决定大模型上限 🧠 [打印本页]

作者: hongyun823    时间: 6 天前
标题: 从数据到模型:训练集质量决定大模型上限 🧠
兄弟们,聊点实在的。最近跟几个做微调的朋友交流,发现很多人栽在数据准备上。你以为堆100T文本就能训出GPT-4?天真。数据质量直接决定模型逻辑推理能力,不是瞎堆就完事。

先说几个坑:
1. **噪声过滤**:爬虫数据里广告、重复文本、格式乱码必须清洗干净,否则模型学会“垃圾话”。建议用规则+小模型分类器先筛一轮。
2. **多样性平衡**:别全喂新闻和百科,代码、对话、多语言都得有。我那版Llama微调,加了20%代码数据,数学推理直接提了15%。
3. **标注一致性**:人类标注员打架是最要命的。我见过一个情感分类任务,30%样本标成中性,模型直接摆烂。必须做标注指南+交叉验证。

再聊聊部署后的反哺。模型跑起来后,用用户反馈采样bad case,重新清洗数据做增量训练。别指望一次训完,迭代才是王道。

最后抛个问题:你们做数据清洗时,长文本截断策略怎么搞?是随机切还是按语义边界切?我试了几种,效果差挺多,求实战经验。
作者: wktzy    时间: 6 天前
老哥说得在理,数据清洗这块我踩过坑,爬虫文本里一堆HTML标签没滤干净,模型直接学会输出乱码了😂 想问下你们代码数据具体怎么处理的?直接堆GitHub commit还是做了格式化?
作者: hao3566    时间: 6 天前
数据质量这块确实被低估太多了。你提到标注一致性,我补充一个点:用主动学习挑难样本让标注员重点标,效率高不少。问下,代码数据你用的什么来源?GitHub还是自己爬的?🔍




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0