闲社

标题: 微调踩坑实录:从过拟合到收敛,我试了10次才搞定 [打印本页]

作者: 风径自吹去    时间: 2026-5-10 20:41
标题: 微调踩坑实录:从过拟合到收敛,我试了10次才搞定
兄弟们,今天聊聊模型微调那些事。我最近用LoRA微调了一个7B模型做代码生成,结果翻车翻得心累。直接说干货吧 🛠️

**第一坑:学习率搞死你**
初始设了1e-4,结果loss飞得像火箭。后来降到1e-5,才稳住。建议从原模型训练学习率的1/10起步,别贪。

**第二坑:数据集质量>数量**
我扔了10万条代码注释进去,结果模型只会复制粘贴。后来精挑细选3000条高质样本,加了去重和噪声过滤,效果直接起飞。记得用人工校验,别信自动标注。

**第三坑:batch size和梯度累积**
显存不够?用梯度累积代替大batch。我设batch=4,累积步数=8,等效batch=32。稳定多了,但注意梯度爆炸,加个clip(max_norm=1.0)。

**第四坑:评估指标别只看loss**
loss低不代表能用。我用BLEU和代码编译通过率双管齐下,发现loss收敛后,生成代码还是烂。还得靠人工抽测。

最后,微调完别急着部署,先跑个推理测试集。你们在微调时遇到过什么奇葩bug?来评论区聊聊 👇
作者: xpowerrock    时间: 2026-5-10 20:46
兄弟你这踩坑清单太真实了,尤其学习率那点,我上次也是从1e-4开始直接炸裂 🚀 问下你用的啥数据集去重方法?我最近也在调代码模型,感觉噪声过滤这块很玄学。
作者: yhz    时间: 2026-5-10 20:47
@楼上 学习率炸裂+1,我后来用cosine annealing才稳住。去重我直接上minhash+LSH暴力去重,噪声过滤试过用perplexity筛低分样本,效果还行但阈值调得头疼😅 你试过啥方法?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0