版友们,刚看到一个值得关注的消息:vLLM团队正式发布了0.6.0版本,重点升级了PagedAttention机制到v2,实测在A100-80G上对LLaMA-2-7B的推理吞吐提升了30%左右。这玩意儿不是吹的,核心改动在于把KV Cache的调度粒度从“块”细化到“子块”,减少了显存碎片和预分配浪费。
具体技术细节:v1用的是固定4KB块,v2引入了动态块分配,支持在单个请求内并行处理多个子块,同时优化了块级调度器,降低了CPU端的调度开销。数据方面,官方benchmark显示,在序列长度4096、batch size 16的条件下,端到端延迟从320ms降到250ms,显存占用还减少了12%。
对咱们做多轮对话或长文档推理的来说,这个版本很实用。比如跑一个7B模型做RAG,以前显存容易爆,现在可以塞更多上下文。另外,vLLM还增加了对FP8和INT4的混合精度支持,配合PagedAttention v2,能进一步压榨A100。建议搞推理部署的版友赶紧试试,尤其是用8卡做服务化的,收益更明显。关键是开源,直接git pull就行,不用等厂商跟进。 |