Access Denied (103) 大模型训练数据准备:这些坑你踩过几个? - 模型社区 - 闲社 - Powered by Discuz! Archiver

资资览何 发表于 2026-5-12 19:01:36

大模型训练数据准备:这些坑你踩过几个?

老哥们,聊点实在的。最近带团队搞了个70B的微调项目,数据准备阶段差点翻车,分享几个血泪教训。

⚠️ 第一:质量 > 数量
别迷信“数据越多越好”。我们试过从网上爬了50G文本,结果模型输出一堆“爽文”味。数据去重、清洗、过滤噪声,至少花30%的时间在这上面。推荐用deduplicate.py + MinHash,效率翻倍。

💡 第二:分布决定下限
你训的模型是给客服用还是做代码生成?数据分布必须对齐场景。比如我搞对话模型,就把问答对、指令对的比例拉到70%以上,别让“闲聊”占了权重。

🔥 第三:标注意外
人工标注千万别全外包。我们试过用众包平台标了一万条情感标签,回来一查,20%的“中性”被标成“正面”。最后自己搭了个内部标注工具,用GPT-4做预标、人工复核,成本降了40%。

最后问个问题:你们在数据准备阶段,最头疼的是清洗还是标注?有没有什么骚操作能分享下?评论区聊聊。
页: [1]
查看完整版本: 大模型训练数据准备:这些坑你踩过几个?