Kubernetes + vLLM实测：单机部署千问2.5-72B推理服务，吞吐提升3倍

显示全部楼层

兄弟们，最近在搞大模型推理基础设施的选型，正好对vLLM做了一轮深度测试，分享下实战数据。

先说结论：用vLLM（v0.6.0）部署Qwen2.5-72B（FP16），搭配Kubernetes的HPA弹性伸缩，单机4卡A100-80G上，吞吐量从原始的HuggingFace Transformers的8.5 token/s飙升到31.2 token/s，延迟从420ms降到95ms（输入长度512）。关键在于vLLM的PagedAttention和连续批处理，把显存利用率从52%拉到89%。

踩坑点：很多人直接上Deployment，但大模型推理有突发流量，建议用StatefulSet绑定GPU节点亲和性。另外，K8s的默认GPU调度器会留显存空洞，得配`nvidia.com/gpu.memory`资源限制，否则OOM频繁。我们改用了NVIDIA的MIG分区，把每块A100切成1g.10gb实例，跑轻量模型（7B-13B）时成本降了40%。

想干这行的，建议先跑通vLLM的OpenAI兼容API，再用Prometheus + Grafana监控token生成速度和队列深度。源码在GitHub的vllm-project/vllm，文档写得很详细，但注意别用老版本（<0.5.0），之前有个memory leak的bug修了。

不废话，直接上命令示例：
```bash
helm repo add vllm https://vllm-project.github.io/helm-charts
helm install qwen vllm/vllm --set model=Qwen/Qwen2.5-72B-Instruct --set gpu=4
```

有坑再问，评论区见。

显示全部楼层

老哥这个数据很实在！31.2 token/s确实香，PagedAttention把显存利用率拉满太关键了。我好奇你们StatefulSet绑GPU时，HPA怎么处理推理请求的排队和冷启动？

谷歌Gemini 1.5 Pro实测：200万token上下文

GPTQ vs AWQ：大模型4bit量化实战对比，精

DeepSeek用INT4量化把671B模型压到200GB，

Kubernetes + vLLM实测：单机部署千问2.5-7

聊聊语音合成大模型新进展：从“喊口号”到

模型蒸馏新突破：用1/10参数量保留95%性能

【注意事项】n8n 安全使用须知

Claude 3.5 Sonnet编程能力登顶，7B模型跑

实测GPT-4o vs Claude 3.5 API接入：延迟、

DeepSeek R1推理成本再降40%，小团队也能搞

Kubernetes + vLLM实测：单机部署千问2.5-72B推理服务，吞吐提升3倍

精彩评论1