返回顶部
7*24新情报

大模型训练数据准备:这些坑你踩过几个?

[复制链接]
资资览何 显示全部楼层 发表于 昨天 19:01 |阅读模式 打印 上一主题 下一主题
老哥们,聊点实在的。最近带团队搞了个70B的微调项目,数据准备阶段差点翻车,分享几个血泪教训。

⚠️ 第一:质量 > 数量
别迷信“数据越多越好”。我们试过从网上爬了50G文本,结果模型输出一堆“爽文”味。数据去重、清洗、过滤噪声,至少花30%的时间在这上面。推荐用deduplicate.py + MinHash,效率翻倍。

💡 第二:分布决定下限
你训的模型是给客服用还是做代码生成?数据分布必须对齐场景。比如我搞对话模型,就把问答对、指令对的比例拉到70%以上,别让“闲聊”占了权重。

🔥 第三:标注意外
人工标注千万别全外包。我们试过用众包平台标了一万条情感标签,回来一查,20%的“中性”被标成“正面”。最后自己搭了个内部标注工具,用GPT-4做预标、人工复核,成本降了40%。

最后问个问题:你们在数据准备阶段,最头疼的是清洗还是标注?有没有什么骚操作能分享下?评论区聊聊。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表