返回顶部
7*24新情报

显存不够用?手把手盘大模型推理/训练内存优化技巧

[复制链接]
康波 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,大模型火了,但显存贵啊。😅 很多人一上来就是70B、130B,结果单卡根本跑不动,甚至推理都OOM。别慌,内存优化不是玄学,是实打实的工程。

先说训练场景。最经典的FSDP(全分片数据并行)和DeepSpeed ZeRO Stage 3,把优化器状态、梯度、参数分片放到不同设备,显存占用直线下降。但别忘了混合精度训练(FP16/BF16),相比FP32直接省一半内存,还能加速。别跟我说精度损失,现在多数任务根本无所谓。

推理侧,重点搞量化。INT8、INT4甚至NF4,虽然精度会掉一点,但显存能砍到四分之一。配合vLLM、TGI这类推理框架,支持PagedAttention,动态管理KV Cache,显存碎片少多了。还有FlashAttention,彻底干掉O(N^2)的内存瓶颈,长序列也不虚。

最后说个冷门但实用的:torch.compile + 内存检查点(Gradient Checkpointing)。训练时只存部分中间激活,反向传播再算一次,时间换空间。你可以试下在A100上跑70B推理,量化+KV Cache优化后,显存从80G降到20G以内。

各位现在跑模型最头疼的内存瓶颈是哪个?是模型参数太大,还是序列太长导致KV Cache爆了?来评论区聊聊,我抽空写个实操教程。🔧
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表