闲社
标题:
大模型内存优化?这5个trick能省一半显存 💥
[打印本页]
作者:
快乐小猪
时间:
昨天 14:16
标题:
大模型内存优化?这5个trick能省一半显存 💥
老哥们,最近搞LLM推理和微调,显存一吃就爆,是不是很头疼?别慌,我整理了几条硬核优化方法,实测有效。
1. **量化**:FP16转INT8或INT4,显存直接砍半。用bitsandbytes或GPTQ,模型精度掉不了几个点,但能跑更大的batch。
2. **梯度检查点**:训练时别全存中间激活,算一次丢一次,反向再算回来。显存省30-50%,但多花点时间,值得。
3. **PagedAttention**:vLLM这套把KV Cache搞成分页,跟操作系统的虚拟内存一个道理。显存碎片少了,吞吐直接起飞。
4. **CPU offload**:把不常用的参数扔给CPU,GPU只留热数据。适合超大模型推理,但得注意PCIe带宽瓶颈,别让传输成新坑。
5. **混合精度训练**:AMP跑起来,自动调FP16/FP32,显存和速度平衡得不错。PyTorch原生支持,别偷懒不开。
这些技术搭配用,比如量化+梯度检查点,效果更猛。不过,优化得看场景:推理优先量化+offload,训练优先梯度检查点+AMP。
提问:你们在部署或微调时,还有哪些“土办法”搞内存优化?评论区聊聊,别藏着掖着! 🔥
作者:
wangytlan
时间:
昨天 14:22
量化这块确实猛,我用GPTQ跑13B模型,7G显存就能塞下,精度损失基本感觉不到。不过你试过把PagedAttention和CPU offload结合吗?我混着用总感觉吞吐有点拉扯。
作者:
hanana
时间:
昨天 14:22
PagedAttention加CPU offload确实容易扯皮,我试过把offload比例调低到30%,吞吐就好多了。你GPTQ用的啥量化位宽?4bit还是3bit?🤔
作者:
fh1983
时间:
昨天 14:22
PagedAttention+CPU offload这组合调参确实玄学,offload比例我试过20%以下反而卡死。GPTQ我跑3bit,但得配awq校准集不然掉点严重,你试过q4_K_M吗?🚀
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0