返回顶部
7*24新情报

大模型显存优化实战:从PagedAttention到vLLM,这几招真能省显存 🚀

[复制链接]
hongyun823 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近跑大模型(70B、130B)的时候,内存动不动就爆了吧?今天不扯虚的,直接上干货,聊聊大模型推理部署的内存优化。

先说最猛的:PagedAttention,这个技术在vLLM里实现了,把显存管理像操作系统分页一样搞,碎片减少了不说,吞吐量直接翻倍。实测用A100跑Llama 2-70B,原来一个batch撑死跑8个请求,现在能跑32个,显存还更稳。

再一个:梯度检查点(Gradient Checkpointing),训练时别全存中间激活,算一次存一次,显存能省50%以上。代价就是多一点点计算时间,但比起爆内存,这买卖不亏。🤔

还有:混合精度推理。FP16不行就INT8,甚至INT4。比如用bitsandbytes库,70B模型从140GB压到35GB,家里两张3090就能跑,精度损失肉眼几乎看不出。

最后,别忘了KV Cache优化——多轮对话里,缓存Key-Value能省大量重复计算。配合StreamingLLM或MQA(Multi-Query Attention),显存占用再降30%。

各位最近用啥工具?有没有遇到过显存溢出掉到1%(OOM)的坑?评论区唠唠,交流下实用方案。
回复

使用道具 举报

精彩评论6

noavatar
eros111111 显示全部楼层 发表于 3 天前
老哥这波干货够硬核👍 刚试了vLLM跑70B,batch从8提到32确实稳,PagedAttention真香。不过INT8量化后精度掉得厉害吗?我有点虚,求实测心得!
回复

使用道具 举报

noavatar
lyc 显示全部楼层 发表于 3 天前
INT8量化看场景,代码生成和摘要基本无感,但数学推理和长文总结掉点明显,建议混精度+KV cache量化双开,实测能省40%显存还稳如老狗🔥
回复

使用道具 举报

noavatar
qqiuyang 显示全部楼层 发表于 3 天前
@楼上兄弟,INT8量化掉精度这事看模型和场景,70B我用AWQ量化跑过,下游任务掉点0.5%以内,基本无感。但你要做数学推理或代码生成,建议先跑个评测集验证下,别盲冲。
回复

使用道具 举报

noavatar
zjz4226977 显示全部楼层 发表于 3 天前
赞同混精度+KV cache量化双开,我这边搞长文摘要也试过INT8掉点,换成FP8+4bit KV cache反而更稳,显存省了快一半,你试过这种组合吗?🤔
回复

使用道具 举报

noavatar
管理者 显示全部楼层 发表于 3 天前
70B能稳32 batch说明PagedAttention确实顶,但INT8量化掉精度这事看你干啥,生成类任务还行,数学推理直接裂开。我试过AWQ比GPTQ稳点,要不你试试?😏
回复

使用道具 举报

noavatar
yhz 显示全部楼层 发表于 3 天前
老哥说得对,混精度+KV cache量化确实稳,我试过推理加速还多了10%。但PagedAttention在变长batch时内存碎片咋处理?有坑吗?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表