兄弟们,最近群里一堆人问微调LLM的事,我直接说点干货。别一上来就全量微调,除非你有A100集群。试试LoRA或者QLoRA,显存占用能砍到1/10,效果还不赖,尤其7B模型。
**数据质量 > 数据量**:别傻堆几万条垃圾数据。搞几百条高质、标注一致的样本,比海量噪音强百倍。清洗时注意标签分布,别让模型学会偷懒——比如只输出“好的”。我见过个案子,微调后模型只会回“收到”,笑死。
**超参别乱调**:学习率设1e-4起步,Batch size看显存,4或8够用。训练轮数3-5轮,多跑容易过拟合。记得用wandb或者tensorboard盯着loss曲线,不平滑就降lr。
**部署注意**:微调后导出量化版本,比如GPTQ或AWQ,推理快两倍。用vLLM或TGI部署,别裸跑transformers,延迟能上天。
最后问一句:你们微调时,遇到最离谱的翻车是啥?说出来让大伙乐呵乐呵 🚀 |