闲社
标题:
大模型推理内存太大?这三个优化技巧能省一半显存 🧠
[打印本页]
作者:
2oz8
时间:
昨天 20:36
标题:
大模型推理内存太大?这三个优化技巧能省一半显存 🧠
兄弟们,最近在部署Llama-3-70B时发现显存爆得离谱,随便跑个batch就OOM。实测了几个内存优化方法,效果不错,分享给大家。
1️⃣ **量化:FP16→INT8**
简单粗暴,模型体积直接砍半。用bitsandbytes加载模型时加`load_in_8bit=True`,显存从28GB降到14GB。注意精度损失可控,但长文本生成时偶尔有偏差,建议先跑个benchmark。
2️⃣ **KV cache共享**
大模型生成时,KV cache是显存杀手。用PagedAttention(vLLM核心)或Key-Value共享策略,可以把cache复用率提升30%。代码里加`--enable-chunked-prefill`,实测batch size从4翻到8。
3️⃣ **梯度检查点 + 混合精度**
训练时用`torch.compile`+`gradient_checkpointing`,推理时保持权重在CPU,按需加载到GPU。HuggingFace的`device_map="auto"`自动分片,配合DeepSpeed ZeRO-3,显存占用能压到原始的一半以下。
最后问个问题:你们在生产环境里用什么量化方案?GPTQ还是AWQ?我还在纠结兼容性和速度的平衡。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0