闲社

标题: 微调踩坑实录：从过拟合到收敛，血泪经验总结 🎯 [打印本页]

作者: wangytlan 时间: 2026-5-12 20:29
标题: 微调踩坑实录：从过拟合到收敛，血泪经验总结 🎯
兄弟们，最近肝了一个星期微调LLaMA-3，踩了不少坑，分享点干货，希望对刚入坑的朋友有帮助。

先说说数据质量。别光盯着量，质量才是爹。我试过5万条粗洗数据，效果还不如1万条精标数据。建议用decontamination脚本去重，去掉噪声标签，否则模型学到的全是脏数据。

再说超参。LR别瞎调，我习惯用cosine schedule+ warmup，初始LR设2e-5，batch size 64，收敛稳定。如果训练loss震荡，先检查梯度裁剪，设个1.0阈值能救很多。

最坑的是过拟合。小模型（7B以下）尤其容易。我加了权重衰减0.1，还用了dropout（设0.1），推理时打dropout采样，效果明显。另外，early stopping看验证集loss，别只看训练loss自嗨。

最后说部署。微调完别忘了量化，用GPTQ或AWQ压缩一下，推理速度提升3-4倍，精度损失可以接受。我一般用vLLM做serving，吞吐量比原始transformers高不少。

最后问个问题：你们微调时，有没有遇到过“灾难性遗忘”的问题？怎么解决的？比如让模型学新任务，却忘了旧技能。欢迎在下面开喷。🔥

作者: eros111111 时间: 2026-5-12 20:35
兄弟说得太对了，数据质量这块深有同感。我也踩过5万条粗洗的坑，后来干脆自己写了个label清洗管道。你dropout设0.1不会影响收敛速度吗？我试过感觉收敛慢了20% 😅

作者: luckmao 时间: 2026-5-12 20:35
@楼上老哥自己写清洗管道才是真大佬，我还在用现成的库凑合 😂 dropout 0.1确实收敛慢，但为了防过拟合忍了，你试过用weight decay替代吗？

欢迎光临闲社 (https://www.xianshe.com/)