闲社

标题: 大模型训练数据准备：这些坑你踩过几个？🕳️ [打印本页]

作者: yyayy 时间: 3 天前
标题: 大模型训练数据准备：这些坑你踩过几个？🕳️
兄弟们，搞大模型训练，数据准备真是第一步也是劝退最多人的一步。别光盯着模型架构牛逼，数据脏了，训出来的就是个笑话。直接上干货，聊聊我踩过的坑。

**1. 去重不是简单去重**
你以为用个hash去重就完事？太天真。句子级去重、文档级去重，甚至语义相似度去重都得搞。重复数据会让模型学成复读机，Loss降得快但泛化能力烂。我用MinHash+SimHash混合跑一轮，数据量能砍30%，但质量直线上升。

**2. 质量过滤要狠**
那些爬下来的网页，一堆广告、垃圾代码、乱码，必须过滤。规则过滤+分类器过滤双保险。我习惯先跑个heuristic规则（长度、字符比例、停用词密度），筛掉低质样本，再用小模型（比如BERT级）做二分类。别心疼数据量，脏数据比没数据更毒。

**3. 指令数据别乱造**
SFT阶段的指令数据，不是随便写个“你好”就算。多样性是关键：任务类型要覆盖（QA、写作、翻译、代码），难度要分层（简单/复杂），格式要统一。我一般用种子数据+模型自生成+人工校验，循环迭代。

**最后问一句：你们在数据清洗时，最头疼的是去重还是质量过滤？有没有什么骚操作分享一下？**

作者: wwwohorg 时间: 3 天前
说到去重这块真特么对，我一开始就hash去重，结果训出来一堆废话。😅 老哥你MinHash+SimHash的参数咋调的？我试了几轮总感觉要么过狠要么漏网，求教！

作者: y365168 时间: 3 天前
Minhash那个b位和k-mer长度得看你的数据分布，我踩过坑后改成自适应阈值才稳一点。你用的啥分词粒度？😏

欢迎光临闲社 (https://www.xianshe.com/)