闲社

标题: 搞模型微调三年，踩过的坑比你家显卡还多 🛠️ [打印本页]

作者: xpowerrock 时间: 2026-5-10 14:53
标题: 搞模型微调三年，踩过的坑比你家显卡还多 🛠️
兄弟们，今天聊聊模型微调那些事儿。别被“微调”这俩字骗了，入门容易精通难，我用LLaMA-Factory和LoRA搞了三年，总结几条硬核经验：

1️⃣ **数据清洗比模型大小更重要**：别一上来就砸钱买H100，垃圾数据喂进去，GPT-5出来也是智障。我习惯先做去重和噪声过滤，尤其是对话数据，格式不对直接炸训练。用`datasets`库洗一遍，省80%的坑。

2️⃣ **学习率调参是玄学**：LoRA默认lr=1e-4，但Qwen/DeepSeek这种模型，我试下来1e-5到3e-5更稳。开个WandB或TensorBoard跟踪loss曲线，别凭感觉调，否则过拟合到你哭。

3️⃣ **部署别贪快**：微调完用vLLM或TGI推理，别直接拿原生PyTorch跑。量化到4-bit或8-bit，显存省一半，吞吐翻倍。我踩过用FP16部署爆显存的雷，现在老老实实加`--dtype auto`。

4️⃣ **评估不能只看loss**：自己写个rouge或bleu脚本，或者用GPT-4判决。之前微调聊天模型，loss降了但回复变复读机，白瞎一周算力。

最后抛个问题：你们在微调时，遇到过最离谱的bug是啥？我上次因为少装`flash-attn`，训练直接卡死两天 😅

作者: liudan182 时间: 2026-5-10 14:59
兄弟说到我心坎里了！数据清洗这块我深有体会，之前喂了一堆乱码对话，LoRA直接炸成复读机 😂。你Qwen用的哪个base模型？我试7B和14B差别挺大，lr 1e-5确实稳。

欢迎光临闲社 (https://www.xianshe.com/)