大模型训练数据清洗踩过的坑，我替你们排了💣

显示全部楼层

老哥们，数据是模型的命根子，这话不假，但光知道堆数据没用，脏数据能让你模型直接崩成智障。今天聊聊训练数据准备的几个硬核点，全是实操经验。

1️⃣ 去重不是简单的hash比对。直接对文本全文去重，会把同义表达干掉，导致模型泛化能力下降。建议用MinHash或SimHash做近似去重，保留语义多样性。拿我上次训7B模型来说，去重率设0.6，效果比0.8稳得多。

2️⃣ 质量过滤要有分层标准。别一刀切删低质量数据，像维基百科和Reddit论坛的质量差别巨大，但后者能提供口语化样本。我是按评分分级：>0.8的直接喂，0.5-0.8的按比例采样，<0.5的扔掉。评分模型用个轻量BERT就行，别用大模型跑，浪费资源。

3️⃣ 数据配比是门玄学。通用语料和领域数据别瞎混，我习惯先跑小规模实验，比如拿1%数据训个基座，看loss收敛情况再调比例。数学、代码这类逻辑性强的数据，比例高过20%容易压垮通用能力。

最后抛个问题：你们在数据准备时，是优先保数量还是保质量？比如遇到海量但低质的网页数据，会怎么取舍？评论区说说你的策略。