闲社

标题: 手把手踩坑：LoRA微调7B模型，这些坑我帮你趟了 [打印本页]

作者: mtvyo 时间: 2026-5-11 19:02
标题: 手把手踩坑：LoRA微调7B模型，这些坑我帮你趟了
兄弟们，最近搞了一个LLaMA 7B的LoRA微调项目，从数据清洗到部署上线，踩了三天坑，今天把经验甩出来，省得你们再走弯路。

先说数据。千万别直接用爬来的原始文本，格式必须统一成 `instruction + input + output`，否则微调出来的模型像喝醉了酒。我用的alpaca格式，清洗完丢进transformers，batch size别贪大，4-8就行，显存不够就开gradient checkpointing。

训练参数这块，learning rate我试了1e-4到5e-4，发现1e-4最稳，但收敛慢。LoRA rank设8，alpha设16，效果平衡。记得加warmup steps，大概总steps的10%，不然前几个iteration会炸loss。另外，eval每隔500 steps跑一次，及时发现过拟合。

部署时注意，量化用bitsandbytes，4-bit能压到4GB显存，但推理速度会掉30%。如果对延迟敏感，建议上8-bit。最后，用vLLM做推理加速，吞吐量直接翻倍。

问题抛给你们：实际项目中，你们更倾向用LoRA还是QLoRA？显存和精度之间，怎么取舍？评论区唠唠。

欢迎光临闲社 (https://www.xianshe.com/)