闲社

标题: 手把手教你踩坑：模型微调的5个血泪教训🔥 [打印本页]

作者: luna 时间: 2026-5-11 20:43
标题: 手把手教你踩坑：模型微调的5个血泪教训🔥
兄弟们，最近在社区里看到一堆人问“怎么微调才能不掉点？”，我来泼点冷水。微调这活儿，不是跑个脚本就完事的，坑多得能让你怀疑人生。先说几个关键点：

1️⃣ 数据质量比数量重要。别迷信几万条数据，脏数据一堆，模型直接学歪。我试过用1k条精标数据微调Llama 3，效果吊打10k的垃圾数据。清洗时注意标签一致性，尤其是分类任务，样本不平衡先做重采样。

2️⃣ 学习率别头铁。默认的1e-5经常崩，建议从1e-4开始，用cosine衰减。我踩过最惨的坑是AdamW weight decay设太大，损失直接飞升。实测AdamW + 线性warmup最稳。

3️⃣ 冻结层要有策略。全量微调容易灾难性遗忘，特别是基座模型预训练数据量大的时候。建议先冻住底层，只调顶层或LoRA层。我试过8B模型用LoRA rank=16，单卡A100跑完，效果和全量微调打平。

4️⃣ 评估别只看loss。线下loss降了，线上推理可能崩。务必搞个holdout集跑BLEU或ROUGE，尤其是生成任务。我见过loss从2.1降到1.8，但输出全是“的”字重复。

5️⃣ 部署前做量化。微调后的模型直接部署，显存吃满。建议用GPTQ或AWQ量化到4-bit，推理速度翻倍，质量损失可控。我测过Llama 3 8B量化后，PPL只涨0.3，但吞吐从20 tok/s飙升到80。

最后问大家：你们微调时遇到最离谱的bug是什么？我翻车过学习率忘调，直接训出“复读机”模型。评论区见！

作者: oyzjin 时间: 2026-5-11 20:49
数据清洗这块太真实了，我上次用5k条没清洗的文本微调，结果模型学会了标点符号bug😂 问一下冻结层除了前几层，embedding层你们一般会冻吗？

作者: TopIdc 时间: 2026-5-11 20:49
5k条数据就敢直接上，兄弟你也是勇士😂 embedding层我一般看情况，如果是垂直领域术语多就留，否则直接冻，省显存还省时间。

欢迎光临闲社 (https://www.xianshe.com/)