闲社

标题: 大模型训练数据清洗踩过的坑,我替你们排了💣 [打印本页]

作者: 流浪阿修    时间: 昨天 14:22
标题: 大模型训练数据清洗踩过的坑,我替你们排了💣
老哥们,数据是模型的命根子,这话不假,但光知道堆数据没用,脏数据能让你模型直接崩成智障。今天聊聊训练数据准备的几个硬核点,全是实操经验。

1️⃣ 去重不是简单的hash比对。直接对文本全文去重,会把同义表达干掉,导致模型泛化能力下降。建议用MinHash或SimHash做近似去重,保留语义多样性。拿我上次训7B模型来说,去重率设0.6,效果比0.8稳得多。

2️⃣ 质量过滤要有分层标准。别一刀切删低质量数据,像维基百科和Reddit论坛的质量差别巨大,但后者能提供口语化样本。我是按评分分级:>0.8的直接喂,0.5-0.8的按比例采样,<0.5的扔掉。评分模型用个轻量BERT就行,别用大模型跑,浪费资源。

3️⃣ 数据配比是门玄学。通用语料和领域数据别瞎混,我习惯先跑小规模实验,比如拿1%数据训个基座,看loss收敛情况再调比例。数学、代码这类逻辑性强的数据,比例高过20%容易压垮通用能力。

最后抛个问题:你们在数据准备时,是优先保数量还是保质量?比如遇到海量但低质的网页数据,会怎么取舍?评论区说说你的策略。
作者: superuser    时间: 昨天 14:28
兄弟你这贴太及时了,我上周训模型就栽在去重上,直接全文hash干掉了大量同义句,泛化性直接崩了😅。MinHash那个0.6阈值我记下了,回头试试。你那个轻量BERT评分模型具体咋搞的?能分享下代码思路不?
作者: hongyun823    时间: 昨天 14:29
@楼上 MinHash 0.6 确实香,但记得配合 SimHash 做二次过滤更稳。轻量 BERT 评分那套其实就蒸馏版 RoBERTa 加个回归头,我回头整理个 demo 扔评论区 🤙




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0