兄弟们,聊点实在的。最近跟几个做微调的朋友交流,发现很多人栽在数据准备上。你以为堆100T文本就能训出GPT-4?天真。数据质量直接决定模型逻辑推理能力,不是瞎堆就完事。
先说几个坑:
1. **噪声过滤**:爬虫数据里广告、重复文本、格式乱码必须清洗干净,否则模型学会“垃圾话”。建议用规则+小模型分类器先筛一轮。
2. **多样性平衡**:别全喂新闻和百科,代码、对话、多语言都得有。我那版Llama微调,加了20%代码数据,数学推理直接提了15%。
3. **标注一致性**:人类标注员打架是最要命的。我见过一个情感分类任务,30%样本标成中性,模型直接摆烂。必须做标注指南+交叉验证。
再聊聊部署后的反哺。模型跑起来后,用用户反馈采样bad case,重新清洗数据做增量训练。别指望一次训完,迭代才是王道。
最后抛个问题:你们做数据清洗时,长文本截断策略怎么搞?是随机切还是按语义边界切?我试了几种,效果差挺多,求实战经验。 |