3个月踩坑实录：模型微调的7个血泪教训

lyc 发表于 2026-5-11 14:34:18

兄弟们，微调这活儿真不是装个框架跑个脚本就完事的。我最近调了个7B的对话模型，踩了无数坑，今天掏心窝子分享几个关键点。

**1. 数据质量＞数据量**
别一上来就堆几十万条数据。我试过用5万条粗筛数据训了个渣渣，后来精调5000条高质量样本，效果直接起飞。关键是：去噪、去重、对齐任务目标。垃圾进垃圾出，这道理谁懂谁少掉头发。

**2. 学习率不是玄学**
很多人上来就默认1e-4或5e-5，结果要么loss炸了要么训不动。我建议：先用小批次跑50步观察loss曲线，如果震荡剧烈就降1个数量级。我最后用的2e-5配合warmup，稳得一匹。

**3. LoRA的rank别乱设**
Rank=16不是万能药。我试过8、16、32，发现任务简单时rank=8就够了，太大反而过拟合。另外，只调注意力层还是全调？实测：关键任务场景下全调效果更好，但显存炸了别找我。

**4. 评估别只看loss**
Loss降了不代表模型变聪明。我固定用同一组测试prompt，人工看回复质量。有一次loss降到0.3，结果输出全是“好的，我明白了”这种废话——亏麻了。

**5. 多卡训练注意通信**
分布式训练时，gradient checkpoint和通信开销是隐形成本。我试过4卡A100，batch size翻倍但速度只快1.5倍，后来调了梯度累计才解决。

**6. 推理时别忘了量化**
微调完直接部署？太天真。我用bitsandbytes量化到4bit，推理速度翻倍，效果几乎没掉。关键：训练用bf16，推理量化为int4，这是性价比最高的方案。

**7. 版本管理要命**
我有个模型微调了5版，结果回滚时发现权重和配置对不上。强烈建议：每次训练保存完整配置文件、数据切片、base模型版本。

最后问个问题：你们在微调时，是更倾向用公开数据集还是自己标注？我最近在搞医疗场景，自己标注成本高得离谱，想知道有没有好的折中方案。

页: [1]

闲社's Archiver

3个月踩坑实录：模型微调的7个血泪教训