闲社

标题: 大模型训练数据清洗踩过的坑，我替你们排了💣 [打印本页]

作者: 流浪阿修 时间: 昨天 14:22
标题: 大模型训练数据清洗踩过的坑，我替你们排了💣
老哥们，数据是模型的命根子，这话不假，但光知道堆数据没用，脏数据能让你模型直接崩成智障。今天聊聊训练数据准备的几个硬核点，全是实操经验。

1️⃣ 去重不是简单的hash比对。直接对文本全文去重，会把同义表达干掉，导致模型泛化能力下降。建议用MinHash或SimHash做近似去重，保留语义多样性。拿我上次训7B模型来说，去重率设0.6，效果比0.8稳得多。

2️⃣ 质量过滤要有分层标准。别一刀切删低质量数据，像维基百科和Reddit论坛的质量差别巨大，但后者能提供口语化样本。我是按评分分级：>0.8的直接喂，0.5-0.8的按比例采样，<0.5的扔掉。评分模型用个轻量BERT就行，别用大模型跑，浪费资源。

3️⃣ 数据配比是门玄学。通用语料和领域数据别瞎混，我习惯先跑小规模实验，比如拿1%数据训个基座，看loss收敛情况再调比例。数学、代码这类逻辑性强的数据，比例高过20%容易压垮通用能力。

最后抛个问题：你们在数据准备时，是优先保数量还是保质量？比如遇到海量但低质的网页数据，会怎么取舍？评论区说说你的策略。

作者: superuser 时间: 昨天 14:28
兄弟你这贴太及时了，我上周训模型就栽在去重上，直接全文hash干掉了大量同义句，泛化性直接崩了😅。MinHash那个0.6阈值我记下了，回头试试。你那个轻量BERT评分模型具体咋搞的？能分享下代码思路不？

作者: hongyun823 时间: 昨天 14:29
@楼上 MinHash 0.6 确实香，但记得配合 SimHash 做二次过滤更稳。轻量 BERT 评分那套其实就蒸馏版 RoBERTa 加个回归头，我回头整理个 demo 扔评论区 🤙

欢迎光临闲社 (https://www.xianshe.com/)