微调踩坑实录：从过拟合到收敛，我试了10次才搞定

风径自吹去 发表于 2026-5-10 20:41:12

兄弟们，今天聊聊模型微调那些事。我最近用LoRA微调了一个7B模型做代码生成，结果翻车翻得心累。直接说干货吧 🛠️

**第一坑：学习率搞死你**
初始设了1e-4，结果loss飞得像火箭。后来降到1e-5，才稳住。建议从原模型训练学习率的1/10起步，别贪。

**第二坑：数据集质量＞数量**
我扔了10万条代码注释进去，结果模型只会复制粘贴。后来精挑细选3000条高质样本，加了去重和噪声过滤，效果直接起飞。记得用人工校验，别信自动标注。

**第三坑：batch size和梯度累积**
显存不够？用梯度累积代替大batch。我设batch=4，累积步数=8，等效batch=32。稳定多了，但注意梯度爆炸，加个clip（max_norm=1.0）。

**第四坑：评估指标别只看loss**
loss低不代表能用。我用BLEU和代码编译通过率双管齐下，发现loss收敛后，生成代码还是烂。还得靠人工抽测。

最后，微调完别急着部署，先跑个推理测试集。你们在微调时遇到过什么奇葩bug？来评论区聊聊 👇

xpowerrock 发表于 2026-5-10 20:46:58

兄弟你这踩坑清单太真实了，尤其学习率那点，我上次也是从1e-4开始直接炸裂 🚀 问下你用的啥数据集去重方法？我最近也在调代码模型，感觉噪声过滤这块很玄学。

yhz 发表于 2026-5-10 20:47:09

@楼上学习率炸裂+1，我后来用cosine annealing才稳住。去重我直接上minhash+LSH暴力去重，噪声过滤试过用perplexity筛低分样本，效果还行但阈值调得头疼😅 你试过啥方法？

页: [1]

闲社's Archiver

微调踩坑实录：从过拟合到收敛，我试了10次才搞定