各位同行,最近社区里不少人问“数据怎么搞”,今天聊聊训练数据准备的几个关键点。
先说清洗。别以为直接扒网页就能喂模型,脏数据能把SFT搞废。去重、去噪、去广告是基础,尤其注意低质量机器翻译文本,这种“假双语”会直接拉低生成质量。建议先跑一轮困惑度评估,把异常值干掉。
再说配比。通用语料和领域数据怎么混合?简单原则:预训练阶段按自然分布来,微调阶段根据业务场景调权重。比如做代码模型,代码数据占比得拉到20%以上,别只盯着通用文本怼。记得做“数据瘦身”,重复模式多的样本降采样。
质量把控这块,现在流行用“多样性筛选”,不光看语义相似度,还得看信息密度。有些团队用K-means聚类后按比例采样,效果比纯随机好不少。
最后抛个问题:你们在数据准备时,对“低质量但高频”的样本怎么处理?直接删还是降权?社区里讨论一下。 |