兄弟们,最近群里天天有人问微调模型翻车的事。我搞了两年多的LoRA和全量微调,踩坑无数,今天直接上干货。
**第一坑:数据清洗不干净**
别以为随便扒个数据集就能训。我见过有人拿中文小说喂LLaMA,结果模型学会写武侠但答不了数学题。建议:先做数据质量审计,重复、噪声、低质量样本直接筛掉,宁可小但精。
**第二坑:学习率瞎调**
新手最爱用默认1e-4,结果损失直接起飞。我用经验:LoRA微调建议1e-5起步,全量微调5e-6,先跑100步看曲线。收敛太慢再往上加,别贪心。
**第三坑:过拟合不自知**
验证集loss下降但变高?停!加dropout、权重衰减、或者换小模型。我常用Warmup+余弦退火调度,效果好过AdamW硬怼。
**第四坑:显存不够还硬上**
穷人炼丹标配:梯度累积、混合精度、检查点。别笑,我见过3090跑70B模型直接OOM,换成QLoRA+8-bit Adam才稳住。
**第五坑:评估只看loss**
Loss低不代表能用。我习惯准备一个测试集,跑几个实际对话看输出是否合理。比如微调分类模型,检查预测概率分布是否均匀。
讨论时间:你们在微调中还遇到过啥奇葩bug?或者有没有数据增强的神操作?来评论区交流 🔥 |