手把手教你踩坑：LLaMA微调那点事儿，别被教程忽悠了

显示全部楼层

兄弟们，最近社区里一堆人问微调LLaMA的坑，我直接说干货，省得你们走弯路。先说硬件：单卡3090跑7B模型，用QLoRA + 4bit量化，显存能压到12G左右。别信那些吹“一张RTX 3060跑全参数微调”的鬼话，那是作死。LoRA rank设16-32足够，调太高反而过拟合，还吃显存。

数据准备是重点！别直接拿开源数据集怼，先清洗一遍：去重、去噪音、格式统一。比如你搞对话模型，指令和回复必须对齐，否则模型学成“答非所问”的疯子。我踩过坑：用Alpaca格式但没加system prompt，结果生成内容跑偏。建议先用小batch（4-8）跑几轮，监测loss曲线，如果震荡得像心电图，赶紧调lr或换优化器。

部署时注意推理框架：vLLM吞吐高但吃内存，TGI兼容性好但慢。实测7B模型用vLLM，batch size设8，延迟能压到1秒内。别忘做量化校准，否则精度掉到亲妈都不认识。

最后问个问题：你们在微调时，有没有遇到“模型越训越蠢”的情况？是数据噪声还是学习率炸了？来评论区聊聊。