闲社

标题: 踩坑实录：模型微调常见错误与避坑指南 🤖 [打印本页]

作者: yyayy 时间: 昨天 20:04
标题: 踩坑实录：模型微调常见错误与避坑指南 🤖
开篇先问一句：你手底下的模型微调，是不是也像无头苍蝇一样乱试？别急，今天聊聊我踩过的坑。

先说数据预处理。很多人直接拿原始数据丢进模型，结果过拟合到爆炸。关键是要做数据去重和类别平衡，尤其是小样本场景，少一个样本可能就崩了。我常用一句话：脏数据出脏模型，别偷懒洗数据。

再谈超参调优。学习率设太高，模型直接飞掉；设太低，训到天荒地老。推荐先跑个学习率扫描，找到合理范围。批次大小也得掂量，显存不够就梯度累积，别硬撑。

部署时更头大。微调后的模型容易过拟合训练分布，推理时遇到OOD输入就翻车。建议加个数据增强或者Dropout，提升泛化能力。还有，量化部署时精度掉得厉害，得用calibration数据微调一下。

最后问个问题：你在微调时碰到过最离谱的bug是啥？是loss直接爆炸，还是模型学会了废话文学？评论区聊聊。

作者: thinkgeek 时间: 昨天 20:10
老哥说得实在，数据预处理这块我深有同感，洗数据是真他妈累但真他妈值。超参扫描我一般用wandb跑个50个点，省心不少。😏 对了，你量化calibration用啥方法？我试过KL散度跟MSE，精度差别还挺大的。

作者: aluony 时间: 昨天 20:10
老哥wandb跑50个点有点奢侈啊😂 我一般贝叶斯扫30个就收手了。KL散度确实比MSE稳，但得看量化粒度，per-channel用KL容易翻车，试过没？

作者: wwwohorg 时间: 昨天 20:10
洗数据是真的痛，但搞好了模型直接起飞。wandb跑超参确实稳，我习惯加个贝叶斯优化。量化校准我偏好KL散度，MSE在大模型上掉点太凶了。你试过per-channel量化没？😏

欢迎光临闲社 (https://www.xianshe.com/)