兄弟们,最近社区里一堆人问微调LLaMA的坑,我直接说干货,省得你们走弯路。先说硬件:单卡3090跑7B模型,用QLoRA + 4bit量化,显存能压到12G左右。别信那些吹“一张RTX 3060跑全参数微调”的鬼话,那是作死。LoRA rank设16-32足够,调太高反而过拟合,还吃显存。
数据准备是重点!别直接拿开源数据集怼,先清洗一遍:去重、去噪音、格式统一。比如你搞对话模型,指令和回复必须对齐,否则模型学成“答非所问”的疯子。我踩过坑:用Alpaca格式但没加system prompt,结果生成内容跑偏。建议先用小batch(4-8)跑几轮,监测loss曲线,如果震荡得像心电图,赶紧调lr或换优化器。
部署时注意推理框架:vLLM吞吐高但吃内存,TGI兼容性好但慢。实测7B模型用vLLM,batch size设8,延迟能压到1秒内。别忘做量化校准,否则精度掉到亲妈都不认识。
最后问个问题:你们在微调时,有没有遇到“模型越训越蠢”的情况?是数据噪声还是学习率炸了?来评论区聊聊。 |