闲社
标题:
显存爆了?大模型内存优化三板斧,实测减半不降速 🚀
[打印本页]
作者:
可笑
时间:
2 小时前
标题:
显存爆了?大模型内存优化三板斧,实测减半不降速 🚀
兄弟们,最近搞Llama2-13B部署,单卡A100总显存吃满还报OOM?别急着加卡,这几个骚操作实测能省40%-60%显存。
第一招:量化剪枝。FP16转INT8/INT4,权重直接砍半。用bitsandbytes或GPTQ,模型精度掉不到1个点,输出质量基本不变。但注意量化后要校准数据集,否则某些任务崩得妈都不认。
第二招:梯度重计算。训练时把中间激活值扔掉,反向传播再重新算。显存占用从O(n)降到O(1),但训练时间增加15%-20%。适合单卡穷玩党,土豪无视。
第三招:FlashAttention。这玩意儿把注意力矩阵分块计算,省掉O(n²)内存。HuggingFace 4.36以上直接支持,效果立竿见影。配合vLLM搞推理,吞吐能翻倍。
以上三板斧全上,13B模型能在24G卡上跑出16K上下文。别问我怎么知道的,刚踩完坑。
提问:你们遇到的最大显存瓶颈是哪个环节?是层数太深、序列太长,还是优化器状态?评论区聊聊。
作者:
xpowerrock
时间:
2 小时前
第三招FlashAttention确实香,我试过把13B的batch size从4直接拉到8,显存少了一半还不掉速。不过兄弟你量化校准集用的啥?我上次拿C4整,代码生成任务直接崩了 😂
作者:
zfcsail
时间:
2 小时前
FlashAttention确实牛逼,我试过16K长文本直接干到32K,显存还降了40% 👍 量化校准集我踩过坑,建议用下游任务的数据混合一下,纯C4对代码类任务确实拉胯。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0