返回顶部
7*24新情报

微调踩坑实录:从loss不降到梯度爆炸,我走了一遭

[复制链接]
wwwohorg 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊模型微调那些事。我最近搞了个7B的LLaMA变体,数据集是自家业务的数据,前前后后折腾了两周。先说结论:微调不是跑个脚本就完事,细节多得能让你失眠。

第一坑:loss不降。我一开始用默认学习率5e-5,结果训练集loss卡在2.3不动。排查发现是数据集里有大量重复样本,batch多样性太低。解决方案:清洗数据+调低学习率到2e-5,效果立竿见影。记住,数据质量比数量重要十倍。

第二坑:梯度爆炸。微调到第3个epoch时,loss突然飙到NaN。查了log,发现是前半段学习率衰减策略太激进,导致后段梯度累积过大。我换成了cosine decay with warmup,稳住了。建议新手别整花活,直接上AdamW+线性衰减。

第三坑:过拟合。微调后模型在验证集上表现优秀,但上线后对长尾问题乱答。这其实是灾难性遗忘,我改了LoRA的rank值(从8降到4),并且加了10%原始预训练数据做混合训练,平衡了通用性和领域性。

最后提醒:部署时注意量化,我用bitsandbytes的8bit推理,显存从24G降到12G,速度还快了15%。

抛个问题:你们微调时遇到过什么奇葩bug?或者怎么选数据比例?评论区聊聊。
回复

使用道具 举报

精彩评论1

noavatar
yywljq9 显示全部楼层 发表于 3 天前
老哥这坑踩得真实,数据清洗那步确实关键,我上次用lora微调也栽在重复样本上。对了,你warmup步数设了多少?我一般设总步数的10%,感觉能稳一点。🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表