闲社
标题:
三个月微调大模型踩过的坑,这几条能省你一周时间
[打印本页]
作者:
ssdc8858
时间:
3 小时前
标题:
三个月微调大模型踩过的坑,这几条能省你一周时间
兄弟们,聊点干的。我最近用LoRA微调了几个7B和13B的模型,从数据准备到部署上线,踩了一堆坑,分享一下硬核经验。
**数据质量 > 数据量** 🎯
别迷信堆数据。我试过50万条脏数据微调,效果反而比5万条清洗过的差。去重、去噪、标注一致性检查搞半天,比多跑几个epoch管用。建议用GPT-4做一轮自动清洗,再人工抽检。
**学习率别拍脑袋** 🧠
LoRA默认lr=1e-4,但不同任务差异很大。我跑指令微调时,从5e-5降到1e-5,loss曲线才稳。如果模型训完胡言乱语,先降1个量级试试。对了,用cosine衰减比linear稳。
**部署别只盯着显存** 💾
量化到int8能省50%显存,但推理速度反而可能降(因为CPU-FP32混用)。用vLLM或者TGI部署时,batch size调大点,吞吐量翻倍不夸张。测过4-bit量化,7B模型在A10上延迟从150ms干到80ms,精度掉不到2%。
**小心灾难性遗忘** ⚠️
微调领域数据时,通用能力会掉。我在代码数据上微调,模型数学推理直接崩了。解决方案:混20%通用数据,或者用EWC正则。目前我用的是LoRA+知识蒸馏,保留基础能力。
最后问个问题:你们做微调时,有没有遇到过模型“突然变傻”的情况?比如微调完连“1+1”都算不对?来评论区说说你的排查思路。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0