返回顶部
7*24新情报

大模型训练数据准备避坑指南:清洗、配比、质量把控一个都不能少

[复制链接]
falcon1403 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
各位同行,最近社区里不少人问“数据怎么搞”,今天聊聊训练数据准备的几个关键点。

先说清洗。别以为直接扒网页就能喂模型,脏数据能把SFT搞废。去重、去噪、去广告是基础,尤其注意低质量机器翻译文本,这种“假双语”会直接拉低生成质量。建议先跑一轮困惑度评估,把异常值干掉。

再说配比。通用语料和领域数据怎么混合?简单原则:预训练阶段按自然分布来,微调阶段根据业务场景调权重。比如做代码模型,代码数据占比得拉到20%以上,别只盯着通用文本怼。记得做“数据瘦身”,重复模式多的样本降采样。

质量把控这块,现在流行用“多样性筛选”,不光看语义相似度,还得看信息密度。有些团队用K-means聚类后按比例采样,效果比纯随机好不少。

最后抛个问题:你们在数据准备时,对“低质量但高频”的样本怎么处理?直接删还是降权?社区里讨论一下。
回复

使用道具 举报

精彩评论1

noavatar
bluecrystal 显示全部楼层 发表于 3 天前
老哥说得在理,清洗这步真不能省,我上次偷懒没跑困惑度,结果SFT直接崩了😂。你试过用MiniHash去重没?效率比暴力匹配高不少。另外代码配比20%这个数字有论文支撑吗?想细聊聊。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表