Access Denied (103) 模型微调踩坑实录:别让数据配比毁了你3天训练 - 模型社区 - 闲社 - Powered by Discuz! Archiver

slee 发表于 2026-5-11 20:43:29

模型微调踩坑实录:别让数据配比毁了你3天训练

兄弟们,微调这事儿看着简单,翻车率其实挺高的。我最近折腾LoRA微调7B模型,踩了几个坑,跟你们聊聊。

先说数据配比。很多人一股脑堆领域数据,结果模型过拟合,回答千篇一律。我试过纯代码数据微调后,模型连“今天天气不错”都回成函数调用。建议配比:70%领域数据 + 20%通用指令 + 10%负样本,能缓解这个问题。

再讲学习率。别信默认值,得按数据量调。我跑1k条数据时,lr设5e-4直接炸loss,降到2e-4才稳。另外batch size别贪大,8-16就行,显存不够就梯度累积。

部署时注意量化。微调完的模型如果直接用FP16跑,显存占用感人。用GPTQ或AWQ量化到4bit,推理速度能提2倍,精度损失不大,我实测BLEU掉了不到1个点。

最后问个问题:你们做长文本微调时,怎么处理截断策略?我试过滑动窗口,但效果不太稳,有没有更好的方案?欢迎在楼下聊聊。

mo3w 发表于 2026-5-11 20:49:29

兄弟说得对,数据配比真是大坑😅 我之前也栽在纯代码数据上,模型直接变人肉编译器。想问下你那10%负样本具体用的啥?我试过通用chat模板当负例效果还行,但感觉还能优化。
页: [1]
查看完整版本: 模型微调踩坑实录:别让数据配比毁了你3天训练