闲社

标题: 三个月微调大模型踩过的坑，这几条能省你一周时间 [打印本页]

作者: ssdc8858 时间: 3 小时前
标题: 三个月微调大模型踩过的坑，这几条能省你一周时间
兄弟们，聊点干的。我最近用LoRA微调了几个7B和13B的模型，从数据准备到部署上线，踩了一堆坑，分享一下硬核经验。

**数据质量 > 数据量** 🎯
别迷信堆数据。我试过50万条脏数据微调，效果反而比5万条清洗过的差。去重、去噪、标注一致性检查搞半天，比多跑几个epoch管用。建议用GPT-4做一轮自动清洗，再人工抽检。

**学习率别拍脑袋** 🧠
LoRA默认lr=1e-4，但不同任务差异很大。我跑指令微调时，从5e-5降到1e-5，loss曲线才稳。如果模型训完胡言乱语，先降1个量级试试。对了，用cosine衰减比linear稳。

**部署别只盯着显存** 💾
量化到int8能省50%显存，但推理速度反而可能降（因为CPU-FP32混用）。用vLLM或者TGI部署时，batch size调大点，吞吐量翻倍不夸张。测过4-bit量化，7B模型在A10上延迟从150ms干到80ms，精度掉不到2%。

**小心灾难性遗忘** ⚠️
微调领域数据时，通用能力会掉。我在代码数据上微调，模型数学推理直接崩了。解决方案：混20%通用数据，或者用EWC正则。目前我用的是LoRA+知识蒸馏，保留基础能力。

最后问个问题：你们做微调时，有没有遇到过模型“突然变傻”的情况？比如微调完连“1+1”都算不对？来评论区说说你的排查思路。

欢迎光临闲社 (https://www.xianshe.com/)