开篇先问一句:你手底下的模型微调,是不是也像无头苍蝇一样乱试?别急,今天聊聊我踩过的坑。
先说数据预处理。很多人直接拿原始数据丢进模型,结果过拟合到爆炸。关键是要做数据去重和类别平衡,尤其是小样本场景,少一个样本可能就崩了。我常用一句话:脏数据出脏模型,别偷懒洗数据。
再谈超参调优。学习率设太高,模型直接飞掉;设太低,训到天荒地老。推荐先跑个学习率扫描,找到合理范围。批次大小也得掂量,显存不够就梯度累积,别硬撑。
部署时更头大。微调后的模型容易过拟合训练分布,推理时遇到OOD输入就翻车。建议加个数据增强或者Dropout,提升泛化能力。还有,量化部署时精度掉得厉害,得用calibration数据微调一下。
最后问个问题:你在微调时碰到过最离谱的bug是啥?是loss直接爆炸,还是模型学会了废话文学?评论区聊聊。 |