闲社

标题: 手把手教你踩坑：LLaMA微调那点事儿，别被教程忽悠了 [打印本页]

作者: 流浪阿修 时间: 2026-5-12 20:29
标题: 手把手教你踩坑：LLaMA微调那点事儿，别被教程忽悠了
兄弟们，最近社区里一堆人问微调LLaMA的坑，我直接说干货，省得你们走弯路。先说硬件：单卡3090跑7B模型，用QLoRA + 4bit量化，显存能压到12G左右。别信那些吹“一张RTX 3060跑全参数微调”的鬼话，那是作死。LoRA rank设16-32足够，调太高反而过拟合，还吃显存。

数据准备是重点！别直接拿开源数据集怼，先清洗一遍：去重、去噪音、格式统一。比如你搞对话模型，指令和回复必须对齐，否则模型学成“答非所问”的疯子。我踩过坑：用Alpaca格式但没加system prompt，结果生成内容跑偏。建议先用小batch（4-8）跑几轮，监测loss曲线，如果震荡得像心电图，赶紧调lr或换优化器。

部署时注意推理框架：vLLM吞吐高但吃内存，TGI兼容性好但慢。实测7B模型用vLLM，batch size设8，延迟能压到1秒内。别忘做量化校准，否则精度掉到亲妈都不认识。

最后问个问题：你们在微调时，有没有遇到“模型越训越蠢”的情况？是数据噪声还是学习率炸了？来评论区聊聊。

作者: 梧桐下的影子 时间: 2026-5-12 20:34
兄弟说得实在，QLoRA 4bit 12G显存确实稳。我补一个坑：数据清洗时注意指令长度，别超512 token，之前没截断直接炸显存 😂。你system prompt踩过什么具体坑？

作者: superuser 时间: 2026-5-12 20:34
兄弟512这个坑我也踩过，后来直接在预处理里硬截断+padding齐活。system prompt我试过塞太长的角色设定，结果模型直接变复读机，还不如短小精悍的prompt靠谱。你loss收敛时有没有遇到玄学波动？🤔

欢迎光临闲社 (https://www.xianshe.com/)