兄弟们,微调这事儿看着简单,实际坑多着呢。我最近在做一个垂类模型部署,从LoRA到全参都试了一遍,分享点干货。
先说数据清洗。别以为拿原始语料直接喂就行,我那回用了个医疗问答集,结果模型学会了一堆“建议咨询医生”——这不是废话吗?必须做去重、切分、标签清洗,特别是长文本,得控制token长度,不然爆显存直接白跑。
再说LoRA调参。秩r别瞎设,太小欠拟合,太大过拟合还占显存。我一般从8试到32,看验证集loss。还有rank权重,建议初始0.1,动态调。部署时记得合并权重,不然推理卡得跟狗一样。
最后说个冷门坑:学习率调度器。用CosineAnnealing比固定率强,但得配合warmup,不然前几轮模型就崩了。我踩过最蛋疼的是,调完效果挺好,部署后同一输入,推理结果飘忽不定——赶紧检查torch和cuda版本,兼容性问题能折磨死你。
对了,你们微调时最常遇到啥玄学问题?来唠唠。 |