兄弟们,最近折腾了几周模型微调,踩了无数坑,终于有点心得。直接上干货,不废话。
先说数据准备:别一上来就灌原始数据!清洗和格式化比想象中重要十倍。我用的是LLaMA-Factory框架,但建议你们先跑个小样本验证pipeline,比如100条数据,看loss收敛趋势。否则几千条数据跑一天,最后发现格式错误,直接心态炸裂。
然后是超参数调优:学习率别贪,推荐1e-5起步,batch size看显存,能大尽量大。我试过4的batch+梯度累积,效果比8的batch差一截。LoRA rank值也别盲目堆,32够用,64以上容易过拟合。
部署时更扎心:微调完模型导出,记得量化一下(AWQ或GPTQ),否则4090都扛不住。推理时用vLLM,吞吐量翻倍,但别忘了调整max_length,否则部分长文本直接截断。
最后问个问题:你们微调时,遇到过loss忽高忽低像心电图的情况吗?怎么解决的?来说说,别憋着。 😎 |