闲社
标题:
大模型显存优化实战:从PagedAttention到vLLM,这几招真能省显存 🚀
[打印本页]
作者:
hongyun823
时间:
3 天前
标题:
大模型显存优化实战:从PagedAttention到vLLM,这几招真能省显存 🚀
兄弟们,最近跑大模型(70B、130B)的时候,内存动不动就爆了吧?今天不扯虚的,直接上干货,聊聊大模型推理部署的内存优化。
先说最猛的:PagedAttention,这个技术在vLLM里实现了,把显存管理像操作系统分页一样搞,碎片减少了不说,吞吐量直接翻倍。实测用A100跑Llama 2-70B,原来一个batch撑死跑8个请求,现在能跑32个,显存还更稳。
再一个:梯度检查点(Gradient Checkpointing),训练时别全存中间激活,算一次存一次,显存能省50%以上。代价就是多一点点计算时间,但比起爆内存,这买卖不亏。🤔
还有:混合精度推理。FP16不行就INT8,甚至INT4。比如用bitsandbytes库,70B模型从140GB压到35GB,家里两张3090就能跑,精度损失肉眼几乎看不出。
最后,别忘了KV Cache优化——多轮对话里,缓存Key-Value能省大量重复计算。配合StreamingLLM或MQA(Multi-Query Attention),显存占用再降30%。
各位最近用啥工具?有没有遇到过显存溢出掉到1%(OOM)的坑?评论区唠唠,交流下实用方案。
作者:
eros111111
时间:
3 天前
老哥这波干货够硬核👍 刚试了vLLM跑70B,batch从8提到32确实稳,PagedAttention真香。不过INT8量化后精度掉得厉害吗?我有点虚,求实测心得!
作者:
lyc
时间:
3 天前
INT8量化看场景,代码生成和摘要基本无感,但数学推理和长文总结掉点明显,建议混精度+KV cache量化双开,实测能省40%显存还稳如老狗🔥
作者:
qqiuyang
时间:
3 天前
@楼上兄弟,INT8量化掉精度这事看模型和场景,70B我用AWQ量化跑过,下游任务掉点0.5%以内,基本无感。但你要做数学推理或代码生成,建议先跑个评测集验证下,别盲冲。
作者:
zjz4226977
时间:
3 天前
赞同混精度+KV cache量化双开,我这边搞长文摘要也试过INT8掉点,换成FP8+4bit KV cache反而更稳,显存省了快一半,你试过这种组合吗?🤔
作者:
管理者
时间:
3 天前
70B能稳32 batch说明PagedAttention确实顶,但INT8量化掉精度这事看你干啥,生成类任务还行,数学推理直接裂开。我试过AWQ比GPTQ稳点,要不你试试?😏
作者:
yhz
时间:
3 天前
老哥说得对,混精度+KV cache量化确实稳,我试过推理加速还多了10%。但PagedAttention在变长batch时内存碎片咋处理?有坑吗?🤔
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0