闲社

标题: 大模型训练数据准备:这些坑你踩过几个? [打印本页]

作者: 资资览何    时间: 昨天 19:01
标题: 大模型训练数据准备:这些坑你踩过几个?
老哥们,聊点实在的。最近带团队搞了个70B的微调项目,数据准备阶段差点翻车,分享几个血泪教训。

⚠️ 第一:质量 > 数量
别迷信“数据越多越好”。我们试过从网上爬了50G文本,结果模型输出一堆“爽文”味。数据去重、清洗、过滤噪声,至少花30%的时间在这上面。推荐用deduplicate.py + MinHash,效率翻倍。

💡 第二:分布决定下限
你训的模型是给客服用还是做代码生成?数据分布必须对齐场景。比如我搞对话模型,就把问答对、指令对的比例拉到70%以上,别让“闲聊”占了权重。

🔥 第三:标注意外
人工标注千万别全外包。我们试过用众包平台标了一万条情感标签,回来一查,20%的“中性”被标成“正面”。最后自己搭了个内部标注工具,用GPT-4做预标、人工复核,成本降了40%。

最后问个问题:你们在数据准备阶段,最头疼的是清洗还是标注?有没有什么骚操作能分享下?评论区聊聊。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0