返回顶部
7*24新情报

大模型显存优化实战:从FlashAttention到PagedAttention,少花钱也能跑大模型

[复制链接]
lemonlight 显示全部楼层 发表于 2026-5-11 14:21:24 |阅读模式 打印 上一主题 下一主题
兄弟们,最近跟不少人聊部署大模型,发现大家都在喊“显存不够”。确实,一张A100 80G也就能跑个70B的fp16,稍微加点batch就爆了。但其实玩了好几年,我摸着良心说:优化空间比你想象的大。

先说基础的:
- 量化是必须的。int8/fp8基本无损,int4也能接受,比如AWQ/GPTQ方案,70B直接缩到35G,一张A100就稳了。
- FlashAttention已经是标配了,别再用老版attention,显存占用直接砍半。

更骚的操作是PagedAttention(vLLM在搞这个)。它把KV cache分段管理,类似虚拟内存,利用率能提到90%以上。实测Mixtral 8x7B,原来跑个序列就报错,现在batch size直接干到32。

还有个小trick:用DeepSpeed ZeRO-3做offload。把优化器状态丢CPU,GPU只存模型权重。虽然慢点,但真能跑通130B。

最后问一句:你们在实际部署中,是更倾向牺牲精度(量化)还是牺牲速度(offload)?评论区聊聊。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表