模型微调踩坑实录：从数据清洗到LR调优，教你少走弯路

显示全部楼层

兄弟们，微调这事儿看着简单，实际坑多到能让你怀疑人生。我最近搞了几个LLaMA和ChatGLM的微调项目，分享点硬核经验，直接上干货。

**第一坑：数据清洗别偷懒** 🚨
你以为喂给模型的数据干净了？错。标点符号不一致、换行符残留、中英文混排，这些都能让loss曲线跳舞。我建议用`datasets`库先做标准化，再手动抽检100条，保证质量。

**第二坑：学习率要稳如老狗** 📉
很多人上来就调大LR，结果模型直接发散。我用LoRA微调时，推荐`1e-4`起步，配合余弦退火调度。如果loss在2-3步内暴增，赶紧调低LR或检查batch size。

**第三坑：评估指标别只看loss** 🧐
微调后模型可能记住训练集，但泛化拉胯。我每次留10%验证集，监控BLEU和ROUGE。如果loss降但验证集指标不动，大概率过拟合，早停或加大dropout。

**部署经验** 🚀
微调完导出GGUF或ONNX，记得用`vllm`或`TGI`做推理优化，单卡跑7B模型能到30 tokens/s。别用原版transformers，慢到哭。

最后问一句：你们遇到最离谱的微调bug是啥？是数据泄露还是梯度爆炸？评论区聊聊。