模型微调踩坑实录：LoRA调优的3个降本增效秘诀 🔧

显示全部楼层

兄弟们，最近在搞Llama 2的领域微调，踩了不少坑，分享点干货。

先说说LoRA的rank值选择。别总盯着8、16，试试32+的rank配合0.1的alpha，收敛速度快30%，显存占用只多5%。数据质量比数量重要——500条高质量标注数据，效果吊打5000条爬来的垃圾数据。

训练时注意学习率衰减策略。我习惯用cosine退火 + warmup，前10%步数线性升温到lr=5e-4，再逐步衰减。中途loss震荡说明lr过大，直接砍半重跑。

部署方面，推荐用vLLM做推理加速。LoRA权重可以热插拔，不同任务切换不用重启容器。量化时优先选AWQ，比GPTQ稳定，精度损失<1%。

最后问个问题：你们在生产环境是直接部署微调模型，还是用base模型+LoRA adapter分离部署？后者灵活性高但多一次推理调用，各位怎么权衡？