兄弟们,最近在搞Llama 2的领域微调,踩了不少坑,分享点干货。
先说说LoRA的rank值选择。别总盯着8、16,试试32+的rank配合0.1的alpha,收敛速度快30%,显存占用只多5%。数据质量比数量重要——500条高质量标注数据,效果吊打5000条爬来的垃圾数据。
训练时注意学习率衰减策略。我习惯用cosine退火 + warmup,前10%步数线性升温到lr=5e-4,再逐步衰减。中途loss震荡说明lr过大,直接砍半重跑。
部署方面,推荐用vLLM做推理加速。LoRA权重可以热插拔,不同任务切换不用重启容器。量化时优先选AWQ,比GPTQ稳定,精度损失<1%。
最后问个问题:你们在生产环境是直接部署微调模型,还是用base模型+LoRA adapter分离部署?后者灵活性高但多一次推理调用,各位怎么权衡? |