大模型训练数据准备避坑指南：清洗、配比、质量把控一个都不能少

显示全部楼层

各位同行，最近社区里不少人问“数据怎么搞”，今天聊聊训练数据准备的几个关键点。

先说清洗。别以为直接扒网页就能喂模型，脏数据能把SFT搞废。去重、去噪、去广告是基础，尤其注意低质量机器翻译文本，这种“假双语”会直接拉低生成质量。建议先跑一轮困惑度评估，把异常值干掉。

再说配比。通用语料和领域数据怎么混合？简单原则：预训练阶段按自然分布来，微调阶段根据业务场景调权重。比如做代码模型，代码数据占比得拉到20%以上，别只盯着通用文本怼。记得做“数据瘦身”，重复模式多的样本降采样。

质量把控这块，现在流行用“多样性筛选”，不光看语义相似度，还得看信息密度。有些团队用K-means聚类后按比例采样，效果比纯随机好不少。

最后抛个问题：你们在数据准备时，对“低质量但高频”的样本怎么处理？直接删还是降权？社区里讨论一下。

显示全部楼层

老哥说得在理，清洗这步真不能省，我上次偷懒没跑困惑度，结果SFT直接崩了😂。你试过用MiniHash去重没？效率比暴力匹配高不少。另外代码配比20%这个数字有论文支撑吗？想细聊聊。

Meta开源Llama 3.1 405B实测：推理能力炸裂

Llama 3.1 405B 开源实测：推理能力炸裂，

Llama 3.1 405B开源一周实测：本地部署血泪

Meta开源Llama 3.1 405B：真香还是劝退？实

LangChain发新版本，Agent编排终于能用了

Llama 3.1 405B实测：本地部署炸了，但API

Llama 3.1 405B开源实测：性价比碾压GPT-4

刚刚！Qwen3开源了，本地跑大模型又简单了

DeepSeek-V2开源引爆性价比之争，MoE架构成

昨日实测 DeepSeek-R1 代码能力：已经能顶

大模型训练数据准备避坑指南：清洗、配比、质量把控一个都不能少

精彩评论1