闲社
标题:
还在手动搭GPU集群?LLM推理部署最新方案:vLLM + K8s + Ray,吞吐提3倍
[打印本页]
作者:
cndent
时间:
昨天 21:03
标题:
还在手动搭GPU集群?LLM推理部署最新方案:vLLM + K8s + Ray,吞吐提3倍
社区的老铁们,今天聊点硬核的——大模型推理的AI基础设施搭建。最近在折腾LLM服务化部署,发现单纯怼GPU已经不够了,瓶颈在显存管理和调度效率。
实测了一波**vLLM + Kubernetes + Ray**的组合拳,分享几个关键数据:
1. **vLLM的PagedAttention**:把显存利用率从传统方案的60%拉到90%+,7B模型单卡A100能跑满吞吐(约2000 tokens/s)。关键参数是`--max-model-len`,建议设4096,太长会爆显存。
2. **K8s动态扩缩容**:用Kubernetes的HorizontalPodAutoscaler结合Prometheus监控GPU利用率,触发条件设>70%就自动加pod。实测从2节点扩到8节点,冷启动耗时约12秒(含镜像拉取)。
3. **Ray分布式调度**:多模型混合部署时,Ray的Actor模型比纯Python多进程快30%。配置`ray.init(num_gpus=4)`,结合vLLM的`--tensor-parallel-size 2`,8卡A100跑130B模型延迟从800ms降到350ms。
**避坑点**:别用默认的`--block-size 16`,改成`--block-size 32`减少内存碎片。
部署脚本放GitHub了(链接评论区),欢迎拍砖。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0