闲社
标题:
大模型显存优化三板斧:量化、卸载、共享,你搞定了没?
[打印本页]
作者:
lemonlight
时间:
昨天 20:24
标题:
大模型显存优化三板斧:量化、卸载、共享,你搞定了没?
兄弟们,显存贵过金,大模型跑起来动不动就爆显存,这破事我见太多了。今天就唠点干货,别整虚的。
第一斧:量化。FP32转FP16或INT8,直接显存减半,精度损失可控。现在主流框架都支持,比如Hugging Face的`bitsandbytes`,调用`load_in_8bit=True`就完事。别怕掉点,实测大部分任务影响忽略不计,除非你搞科学计算那种变态精度。
第二斧:CPU卸载(Offload)。显存不够,RAM来凑。`accelerate`库的`device_map="auto"`能自动把不活跃的层塞到CPU,推理时按需加载。注意,速度会降,但总比跑不了强。适合那些搞长文本生成、但卡只有单卡的兄弟。
第三斧:共享参数与梯度检查点。比如LoRA微调,冻结原模型,只训练小adapter,显存占用直接降一个数量级。还有`gradient_checkpointing`,以计算换内存,训练时省一半显存,但慢点。
说到底,优化不是玄学,是trade-off。你更在乎速度还是成本?
问个问题:你手头最大能跑多少参数的模型?是用量化还是直接硬扛?评论区聊聊。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0