兄弟们,搞模型微调这些年,踩过的坑比吃过的饭还多。今天分享几个实战经验,直接上干货。
1. **学习率与batch size的黄金配比** 🧠
- 微调LLM时,学习率别超过1e-4,否则loss直接起飞。batch size建议16起步,显存不够就梯度累积。
- 我用Qwen-7B调了个客服场景,lr=2e-5、bs=8、梯度累积4步,效果比默认参数好20%。
2. **数据预处理才是王道** 📊
- 别迷信“数据越多越好”。我试过用10万条粗标数据微调,结果模型学会乱答。后来清理到1万条高质量样本,准确率从65%飙到89%。
- 关键操作:去重、过滤噪声、平衡类别分布。特别是中文场景,记得清洗标点符号和特殊字符。
3. **LoRA的rank值别瞎设** 🔧
- 新手常犯错误:rank设128以为精度高。实际32-64就够,再高容易过拟合还占显存。我调Stable Diffusion时,rank=64比128生成质量更稳。
4. **炼丹必须监控的几个指标** ⏱
- 只看loss?太嫩了。同时盯validation loss、perplexity、显存占用。如果训练loss降但验证loss涨,立刻调dropout或early stop。
最后抛个问题:你们微调时,遇到最离谱的bug是什么?是数据注水还是参数爆炸?评论区唠嗑。 |