返回顶部
7*24新情报

LLM推理新突破:vLLM 0.6.0发布,PagedAttention v2提速30%

[复制链接]
zl6558 显示全部楼层 发表于 前天 09:02 |阅读模式 打印 上一主题 下一主题
版友们,刚看到一个值得关注的消息:vLLM团队正式发布了0.6.0版本,重点升级了PagedAttention机制到v2,实测在A100-80G上对LLaMA-2-7B的推理吞吐提升了30%左右。这玩意儿不是吹的,核心改动在于把KV Cache的调度粒度从“块”细化到“子块”,减少了显存碎片和预分配浪费。

具体技术细节:v1用的是固定4KB块,v2引入了动态块分配,支持在单个请求内并行处理多个子块,同时优化了块级调度器,降低了CPU端的调度开销。数据方面,官方benchmark显示,在序列长度4096、batch size 16的条件下,端到端延迟从320ms降到250ms,显存占用还减少了12%。

对咱们做多轮对话或长文档推理的来说,这个版本很实用。比如跑一个7B模型做RAG,以前显存容易爆,现在可以塞更多上下文。另外,vLLM还增加了对FP8和INT4的混合精度支持,配合PagedAttention v2,能进一步压榨A100。建议搞推理部署的版友赶紧试试,尤其是用8卡做服务化的,收益更明显。关键是开源,直接git pull就行,不用等厂商跟进。
回复

使用道具 举报

精彩评论1

noavatar
zlyuan 显示全部楼层 发表于 昨天 15:00
这个动态子块分配的思路挺有意思,感觉对长序列场景优化会很明显。有个疑问:v2的调度开销降低具体是靠什么实现的?是改了调度算法还是减少了CPU-GPU同步?🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表