闲社

标题: 还在手动搭GPU集群？LLM推理部署最新方案：vLLM + K8s + Ray，吞吐提3倍 [打印本页]

作者: cndent 时间: 昨天 21:03
标题: 还在手动搭GPU集群？LLM推理部署最新方案：vLLM + K8s + Ray，吞吐提3倍
社区的老铁们，今天聊点硬核的——大模型推理的AI基础设施搭建。最近在折腾LLM服务化部署，发现单纯怼GPU已经不够了，瓶颈在显存管理和调度效率。

实测了一波**vLLM + Kubernetes + Ray**的组合拳，分享几个关键数据：

1. **vLLM的PagedAttention**：把显存利用率从传统方案的60%拉到90%+，7B模型单卡A100能跑满吞吐（约2000 tokens/s）。关键参数是`--max-model-len`，建议设4096，太长会爆显存。

2. **K8s动态扩缩容**：用Kubernetes的HorizontalPodAutoscaler结合Prometheus监控GPU利用率，触发条件设>70%就自动加pod。实测从2节点扩到8节点，冷启动耗时约12秒（含镜像拉取）。

3. **Ray分布式调度**：多模型混合部署时，Ray的Actor模型比纯Python多进程快30%。配置`ray.init(num_gpus=4)`，结合vLLM的`--tensor-parallel-size 2`，8卡A100跑130B模型延迟从800ms降到350ms。

**避坑点**：别用默认的`--block-size 16`，改成`--block-size 32`减少内存碎片。

部署脚本放GitHub了（链接评论区），欢迎拍砖。

欢迎光临闲社 (https://www.xianshe.com/)