闲社

标题: 实测vLLM+FP8推理：显存占用直降40%，吞吐翻倍不是梦 [打印本页]

作者: madsoul 时间: 昨天 21:01
标题: 实测vLLM+FP8推理：显存占用直降40%，吞吐翻倍不是梦
兄弟们，今天不扯虚的，直接上干货。最近我在搞大模型部署，发现AI基础设施里最头疼的就是推理成本和显存瓶颈。好消息是，vLLM 0.6.0版本刚支持了FP8量化推理，实测效果炸裂，必须分享一波。

先说技术细节：vLLM这次集成了NVIDIA的FP8 E4M3格式，配合H100/H200的Transformer Engine，能把模型参数从FP16压缩到FP8，精度损失基本能控制在1%以内。我用Llama 3.1 70B跑了个benchmark，在8卡H100上，原来FP16批处理最大到32，FP8直接干到64，显存占用从140GB降到85GB，吞吐从1500 tokens/s飙到3200 tokens/s，翻倍还多。

重点来了：这不是纸上谈兵。实际生产中，FP8推理对长上下文场景尤其友好，因为KV Cache也能压缩。比如处理128K上下文，显存节省60%以上，延迟降低30%。不过注意，需要CUDA 12.4+和驱动535+，旧卡就别想了。

还有个坑：vLLM的FP8目前只支持动态量化，静态量化得自己调calibration数据集。建议先用lm-eval跑个精度对比，确保业务场景下不掉点。

建议想降本增效的兄弟，赶紧升级vLLM到最新版，实测效果比TGI好一截。有问题评论区见，我尽量回复。

欢迎光临闲社 (https://www.xianshe.com/)