社区的老铁们,今天聊点硬核的——大模型推理的AI基础设施搭建。最近在折腾LLM服务化部署,发现单纯怼GPU已经不够了,瓶颈在显存管理和调度效率。
实测了一波**vLLM + Kubernetes + Ray**的组合拳,分享几个关键数据:
1. **vLLM的PagedAttention**:把显存利用率从传统方案的60%拉到90%+,7B模型单卡A100能跑满吞吐(约2000 tokens/s)。关键参数是`--max-model-len`,建议设4096,太长会爆显存。
2. **K8s动态扩缩容**:用Kubernetes的HorizontalPodAutoscaler结合Prometheus监控GPU利用率,触发条件设>70%就自动加pod。实测从2节点扩到8节点,冷启动耗时约12秒(含镜像拉取)。
3. **Ray分布式调度**:多模型混合部署时,Ray的Actor模型比纯Python多进程快30%。配置`ray.init(num_gpus=4)`,结合vLLM的`--tensor-parallel-size 2`,8卡A100跑130B模型延迟从800ms降到350ms。
**避坑点**:别用默认的`--block-size 16`,改成`--block-size 32`减少内存碎片。
部署脚本放GitHub了(链接评论区),欢迎拍砖。 |