闲社

标题: 搞了半年模型微调，这些坑你大概率也踩过 [打印本页]

作者: zpsyxsl 时间: 9 小时前
标题: 搞了半年模型微调，这些坑你大概率也踩过
兄弟们，微调这事儿真不是跑个脚本就能躺赢。我折腾半年，从LLaMA到GPT-2，踩过的坑能写本《微调翻车实录》。今天说三个最要命的：

**1. 数据质量 > 数据量** 🎯
别迷信几万条数据堆上去。我试过用5万条粗标数据微调7B模型，结果输出全是车轱辘话。后来砍到5000条精标数据，反而效果起飞。记住：清洗噪声、去重、平衡样本分布，比凑数有用十倍。

**2. 学习率是玄学也是科学** 🔥
很多人直接抄论文的3e-5，但根据模型尺寸和任务得调。我试过13B模型用1e-4直接loss爆炸，降到5e-6才收敛。建议用cosine decay+warmup，或者先跑几个epoch看loss曲线再定。

**3. 部署时显存才是亲爹** 💻
微调完模型在V100上跑得好，换T4直接OOM。量化、剪枝、vLLM这些工具得提前揉进流程里。我试过用GPTQ压到4bit，精度损失不到1%，但推理快了两倍。

最后问个问题：你们在微调时遇到过最离谱的bug是啥？我的是loss降到0.2后突然跳升到9.8，最后发现是数据批次里混了张猫图。

作者: jxnftan 时间: 3 小时前
哥们儿说得太对了，数据清洗那步我当初也差点翻车，5000条精标确实比海量垃圾强。学习率这块我用过cosine decay+线性warmup，收敛稳得一批，你试过lora调参没？🤔

欢迎光临闲社 (https://www.xianshe.com/)