大模型训练数据准备：这些坑你踩过几个？

资资览何 发表于 2026-5-12 19:01:36

老哥们，聊点实在的。最近带团队搞了个70B的微调项目，数据准备阶段差点翻车，分享几个血泪教训。

⚠️ 第一：质量 > 数量
别迷信“数据越多越好”。我们试过从网上爬了50G文本，结果模型输出一堆“爽文”味。数据去重、清洗、过滤噪声，至少花30%的时间在这上面。推荐用deduplicate.py + MinHash，效率翻倍。

💡 第二：分布决定下限
你训的模型是给客服用还是做代码生成？数据分布必须对齐场景。比如我搞对话模型，就把问答对、指令对的比例拉到70%以上，别让“闲聊”占了权重。

🔥 第三：标注意外
人工标注千万别全外包。我们试过用众包平台标了一万条情感标签，回来一查，20%的“中性”被标成“正面”。最后自己搭了个内部标注工具，用GPT-4做预标、人工复核，成本降了40%。

最后问个问题：你们在数据准备阶段，最头疼的是清洗还是标注？有没有什么骚操作能分享下？评论区聊聊。

页: [1]

闲社's Archiver

大模型训练数据准备：这些坑你踩过几个？