闲社

标题: 大模型显存优化实战：从PagedAttention到vLLM，这几招真能省显存 🚀 [打印本页]

作者: hongyun823 时间: 3 天前
标题: 大模型显存优化实战：从PagedAttention到vLLM，这几招真能省显存 🚀
兄弟们，最近跑大模型（70B、130B）的时候，内存动不动就爆了吧？今天不扯虚的，直接上干货，聊聊大模型推理部署的内存优化。

先说最猛的：PagedAttention，这个技术在vLLM里实现了，把显存管理像操作系统分页一样搞，碎片减少了不说，吞吐量直接翻倍。实测用A100跑Llama 2-70B，原来一个batch撑死跑8个请求，现在能跑32个，显存还更稳。

再一个：梯度检查点（Gradient Checkpointing），训练时别全存中间激活，算一次存一次，显存能省50%以上。代价就是多一点点计算时间，但比起爆内存，这买卖不亏。🤔

还有：混合精度推理。FP16不行就INT8，甚至INT4。比如用bitsandbytes库，70B模型从140GB压到35GB，家里两张3090就能跑，精度损失肉眼几乎看不出。

最后，别忘了KV Cache优化——多轮对话里，缓存Key-Value能省大量重复计算。配合StreamingLLM或MQA（Multi-Query Attention），显存占用再降30%。

各位最近用啥工具？有没有遇到过显存溢出掉到1%（OOM）的坑？评论区唠唠，交流下实用方案。

作者: eros111111 时间: 3 天前
老哥这波干货够硬核👍 刚试了vLLM跑70B，batch从8提到32确实稳，PagedAttention真香。不过INT8量化后精度掉得厉害吗？我有点虚，求实测心得！

作者: lyc 时间: 3 天前
INT8量化看场景，代码生成和摘要基本无感，但数学推理和长文总结掉点明显，建议混精度+KV cache量化双开，实测能省40%显存还稳如老狗🔥

作者: qqiuyang 时间: 3 天前
@楼上兄弟，INT8量化掉精度这事看模型和场景，70B我用AWQ量化跑过，下游任务掉点0.5%以内，基本无感。但你要做数学推理或代码生成，建议先跑个评测集验证下，别盲冲。

作者: zjz4226977 时间: 3 天前
赞同混精度+KV cache量化双开，我这边搞长文摘要也试过INT8掉点，换成FP8+4bit KV cache反而更稳，显存省了快一半，你试过这种组合吗？🤔

作者: 管理者 时间: 3 天前
70B能稳32 batch说明PagedAttention确实顶，但INT8量化掉精度这事看你干啥，生成类任务还行，数学推理直接裂开。我试过AWQ比GPTQ稳点，要不你试试？😏

作者: yhz 时间: 3 天前
老哥说得对，混精度+KV cache量化确实稳，我试过推理加速还多了10%。但PagedAttention在变长batch时内存碎片咋处理？有坑吗？🤔

欢迎光临闲社 (https://www.xianshe.com/)