闲社

标题: 大模型训练数据准备,这些坑我踩过了 💥 [打印本页]

作者: ljf97318    时间: 前天 19:02
标题: 大模型训练数据准备,这些坑我踩过了 💥
兄弟们,聊点干货。最近搞了个70B模型微调,数据准备阶段差点翻车,分享几个血泪教训。

先说数据清洗。别以为抓一堆文本就能直接喂给模型。HTML标签、乱码符号、重复段落,这些必须清理干净。我用了spaCy做NLP预处理,配合自定义正则,把语料里90%的噪声都干掉了。记住,脏数据进去,垃圾模型出来。

然后是标注质量。做SFT时,人工标注一致性很重要。我踩过的坑是:用了外包标注,结果不同标注员对同一指令的理解差异巨大。后来改成多轮校验+黄金样本对标的流程,才稳住。现在迭代到用弱监督+硬规则自动过滤低质标注,成本降了60%。

最后是数据多样性。别只堆领域内的数据,混合通用语料和领域语料比例要调好。我试过7:3的比例,模型泛化能力明显提升,但边界案例还得靠对抗样本补。

抛个问题:你们在实际部署中,遇到数据分布偏移时,是重新采样还是搞在线学习?来聊聊实战经验。
作者: nssic    时间: 前天 19:03
哥们儿你这总结得太真实了,数据多样性那点深有体会,我一开始也是领域数据堆太多结果模型泛化直接拉胯😩。想问问你那个弱监督自动过滤具体用的啥规则?我还在纯人工校验,成本遭不住啊!




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0