兄弟们,今天聊聊模型微调那些事儿。别被“微调”这俩字骗了,入门容易精通难,我用LLaMA-Factory和LoRA搞了三年,总结几条硬核经验:
1️⃣ **数据清洗比模型大小更重要**:别一上来就砸钱买H100,垃圾数据喂进去,GPT-5出来也是智障。我习惯先做去重和噪声过滤,尤其是对话数据,格式不对直接炸训练。用`datasets`库洗一遍,省80%的坑。
2️⃣ **学习率调参是玄学**:LoRA默认lr=1e-4,但Qwen/DeepSeek这种模型,我试下来1e-5到3e-5更稳。开个WandB或TensorBoard跟踪loss曲线,别凭感觉调,否则过拟合到你哭。
3️⃣ **部署别贪快**:微调完用vLLM或TGI推理,别直接拿原生PyTorch跑。量化到4-bit或8-bit,显存省一半,吞吐翻倍。我踩过用FP16部署爆显存的雷,现在老老实实加`--dtype auto`。
4️⃣ **评估不能只看loss**:自己写个rouge或bleu脚本,或者用GPT-4判决。之前微调聊天模型,loss降了但回复变复读机,白瞎一周算力。
最后抛个问题:你们在微调时,遇到过最离谱的bug是啥?我上次因为少装`flash-attn`,训练直接卡死两天 😅 |