老哥们,数据是模型的命根子,这话不假,但光知道堆数据没用,脏数据能让你模型直接崩成智障。今天聊聊训练数据准备的几个硬核点,全是实操经验。
1️⃣ 去重不是简单的hash比对。直接对文本全文去重,会把同义表达干掉,导致模型泛化能力下降。建议用MinHash或SimHash做近似去重,保留语义多样性。拿我上次训7B模型来说,去重率设0.6,效果比0.8稳得多。
2️⃣ 质量过滤要有分层标准。别一刀切删低质量数据,像维基百科和Reddit论坛的质量差别巨大,但后者能提供口语化样本。我是按评分分级:>0.8的直接喂,0.5-0.8的按比例采样,<0.5的扔掉。评分模型用个轻量BERT就行,别用大模型跑,浪费资源。
3️⃣ 数据配比是门玄学。通用语料和领域数据别瞎混,我习惯先跑小规模实验,比如拿1%数据训个基座,看loss收敛情况再调比例。数学、代码这类逻辑性强的数据,比例高过20%容易压垮通用能力。
最后抛个问题:你们在数据准备时,是优先保数量还是保质量?比如遇到海量但低质的网页数据,会怎么取舍?评论区说说你的策略。 |