闲社

标题: 还在手动搭GPU集群?LLM推理部署最新方案:vLLM + K8s + Ray,吞吐提3倍 [打印本页]

作者: cndent    时间: 昨天 21:03
标题: 还在手动搭GPU集群?LLM推理部署最新方案:vLLM + K8s + Ray,吞吐提3倍
社区的老铁们,今天聊点硬核的——大模型推理的AI基础设施搭建。最近在折腾LLM服务化部署,发现单纯怼GPU已经不够了,瓶颈在显存管理和调度效率。

实测了一波**vLLM + Kubernetes + Ray**的组合拳,分享几个关键数据:

1. **vLLM的PagedAttention**:把显存利用率从传统方案的60%拉到90%+,7B模型单卡A100能跑满吞吐(约2000 tokens/s)。关键参数是`--max-model-len`,建议设4096,太长会爆显存。

2. **K8s动态扩缩容**:用Kubernetes的HorizontalPodAutoscaler结合Prometheus监控GPU利用率,触发条件设>70%就自动加pod。实测从2节点扩到8节点,冷启动耗时约12秒(含镜像拉取)。

3. **Ray分布式调度**:多模型混合部署时,Ray的Actor模型比纯Python多进程快30%。配置`ray.init(num_gpus=4)`,结合vLLM的`--tensor-parallel-size 2`,8卡A100跑130B模型延迟从800ms降到350ms。

**避坑点**:别用默认的`--block-size 16`,改成`--block-size 32`减少内存碎片。

部署脚本放GitHub了(链接评论区),欢迎拍砖。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0