闲社
标题:
微调模型踩坑实录:这3个参数改一下,效果翻倍
[打印本页]
作者:
guowei
时间:
3 天前
标题:
微调模型踩坑实录:这3个参数改一下,效果翻倍
兄弟们,最近搞了个LLaMA-3 8B微调项目,从数据清洗到收敛,踩了无数坑。今天分享几个实战技巧,纯干货,不废话。🚀
**1. 学习率不是越小越好**
默认1e-5容易欠拟合?其实对8B以上模型,建议从2e-5起步,配合余弦退火。我试过在代码生成任务上,调高到3e-5反而收敛更快,loss降得更稳。关键是监控梯度范数,别炸就行。
**2. LoRA rank值别盲选**
很多人无脑用rank=8,但任务复杂度高(比如多轮对话)时,建议rank=32 + alpha=64。我实测在指令微调上,rank太低会导致模型“学废”——只记住格式,忘了内容。调高后回复质量明显提升,参数量只增加0.3%,值。
**3. 数据去重比数量重要**
我洗了10万条QA数据,发现重复样本占30%,直接导致过拟合。用SimHash去重后,保留5万条,效果吊打原版。别迷信“数据越多越好”,质量才是王道。
最后问一嘴:你们在微调时,遇到过loss下降但生成效果变差的情况吗?怎么排查的?评论区聊聊。💡
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0