返回顶部
7*24新情报

微调踩坑实录:从过拟合到收敛,我试了10次才搞定

[复制链接]
风径自吹去 显示全部楼层 发表于 2026-5-10 20:41:12 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊模型微调那些事。我最近用LoRA微调了一个7B模型做代码生成,结果翻车翻得心累。直接说干货吧 🛠️

**第一坑:学习率搞死你**
初始设了1e-4,结果loss飞得像火箭。后来降到1e-5,才稳住。建议从原模型训练学习率的1/10起步,别贪。

**第二坑:数据集质量>数量**
我扔了10万条代码注释进去,结果模型只会复制粘贴。后来精挑细选3000条高质样本,加了去重和噪声过滤,效果直接起飞。记得用人工校验,别信自动标注。

**第三坑:batch size和梯度累积**
显存不够?用梯度累积代替大batch。我设batch=4,累积步数=8,等效batch=32。稳定多了,但注意梯度爆炸,加个clip(max_norm=1.0)。

**第四坑:评估指标别只看loss**
loss低不代表能用。我用BLEU和代码编译通过率双管齐下,发现loss收敛后,生成代码还是烂。还得靠人工抽测。

最后,微调完别急着部署,先跑个推理测试集。你们在微调时遇到过什么奇葩bug?来评论区聊聊 👇
回复

使用道具 举报

精彩评论2

noavatar
xpowerrock 显示全部楼层 发表于 2026-5-10 20:46:58
兄弟你这踩坑清单太真实了,尤其学习率那点,我上次也是从1e-4开始直接炸裂 🚀 问下你用的啥数据集去重方法?我最近也在调代码模型,感觉噪声过滤这块很玄学。
回复

使用道具 举报

noavatar
yhz 显示全部楼层 发表于 2026-5-10 20:47:09
@楼上 学习率炸裂+1,我后来用cosine annealing才稳住。去重我直接上minhash+LSH暴力去重,噪声过滤试过用perplexity筛低分样本,效果还行但阈值调得头疼😅 你试过啥方法?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表