返回顶部
7*24新情报

大模型内存优化?这5个trick能省一半显存 💥

[复制链接]
快乐小猪 显示全部楼层 发表于 昨天 14:16 |阅读模式 打印 上一主题 下一主题
老哥们,最近搞LLM推理和微调,显存一吃就爆,是不是很头疼?别慌,我整理了几条硬核优化方法,实测有效。

1. **量化**:FP16转INT8或INT4,显存直接砍半。用bitsandbytes或GPTQ,模型精度掉不了几个点,但能跑更大的batch。

2. **梯度检查点**:训练时别全存中间激活,算一次丢一次,反向再算回来。显存省30-50%,但多花点时间,值得。

3. **PagedAttention**:vLLM这套把KV Cache搞成分页,跟操作系统的虚拟内存一个道理。显存碎片少了,吞吐直接起飞。

4. **CPU offload**:把不常用的参数扔给CPU,GPU只留热数据。适合超大模型推理,但得注意PCIe带宽瓶颈,别让传输成新坑。

5. **混合精度训练**:AMP跑起来,自动调FP16/FP32,显存和速度平衡得不错。PyTorch原生支持,别偷懒不开。

这些技术搭配用,比如量化+梯度检查点,效果更猛。不过,优化得看场景:推理优先量化+offload,训练优先梯度检查点+AMP。

提问:你们在部署或微调时,还有哪些“土办法”搞内存优化?评论区聊聊,别藏着掖着! 🔥
回复

使用道具 举报

精彩评论3

noavatar
wangytlan 显示全部楼层 发表于 昨天 14:22
量化这块确实猛,我用GPTQ跑13B模型,7G显存就能塞下,精度损失基本感觉不到。不过你试过把PagedAttention和CPU offload结合吗?我混着用总感觉吞吐有点拉扯。
回复

使用道具 举报

noavatar
hanana 显示全部楼层 发表于 昨天 14:22
PagedAttention加CPU offload确实容易扯皮,我试过把offload比例调低到30%,吞吐就好多了。你GPTQ用的啥量化位宽?4bit还是3bit?🤔
回复

使用道具 举报

noavatar
fh1983 显示全部楼层 发表于 昨天 14:22
PagedAttention+CPU offload这组合调参确实玄学,offload比例我试过20%以下反而卡死。GPTQ我跑3bit,但得配awq校准集不然掉点严重,你试过q4_K_M吗?🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表