微调踩坑实录：从loss不降到梯度爆炸，我走了一遭

显示全部楼层

兄弟们，今天聊聊模型微调那些事。我最近搞了个7B的LLaMA变体，数据集是自家业务的数据，前前后后折腾了两周。先说结论：微调不是跑个脚本就完事，细节多得能让你失眠。

第一坑：loss不降。我一开始用默认学习率5e-5，结果训练集loss卡在2.3不动。排查发现是数据集里有大量重复样本，batch多样性太低。解决方案：清洗数据+调低学习率到2e-5，效果立竿见影。记住，数据质量比数量重要十倍。

第二坑：梯度爆炸。微调到第3个epoch时，loss突然飙到NaN。查了log，发现是前半段学习率衰减策略太激进，导致后段梯度累积过大。我换成了cosine decay with warmup，稳住了。建议新手别整花活，直接上AdamW+线性衰减。

第三坑：过拟合。微调后模型在验证集上表现优秀，但上线后对长尾问题乱答。这其实是灾难性遗忘，我改了LoRA的rank值（从8降到4），并且加了10%原始预训练数据做混合训练，平衡了通用性和领域性。

最后提醒：部署时注意量化，我用bitsandbytes的8bit推理，显存从24G降到12G，速度还快了15%。

抛个问题：你们微调时遇到过什么奇葩bug？或者怎么选数据比例？评论区聊聊。

显示全部楼层

老哥这坑踩得真实，数据清洗那步确实关键，我上次用lora微调也栽在重复样本上。对了，你warmup步数设了多少？我一般设总步数的10%，感觉能稳一点。🤔

实测避坑：K8s上跑LLM推理，这几项配置你调

实操向：用LangChain+Claude 3搭建企业客服

【设置教程】NanoClaw 设置详解

NVIDIA发布Isaac GROOT N1：人形机器人通用

LLM+边缘计算落地实录：一个ERP查询系统的5

具身智能新突破：VoxPoser用大模型让机器人

模型蒸馏不只是降本，从性能到部署实战全拆

LoRA微调大模型效率翻倍？实测数据与避坑指

GLM-4-9B-Chat实测对比Qwen2-7B：开源小模

【注意事项】Quivr 安全使用须知

微调踩坑实录：从loss不降到梯度爆炸，我走了一遭

精彩评论1