聊聊AI基础设施的坑：模型部署不只是vLLM加载那么简单

显示全部楼层

兄弟们，最近跟几个团队聊AI部署，发现一个普遍误区：以为上vLLM/TGI跑个LLM就完事了。🙃

先说模型推理的核心瓶颈——显存带宽。A100那2TB/s带宽，看着猛，但大模型推理时，计算单元其实在“等数据”。batch size一大，显存带宽立马成短板。所以，别迷信峰值算力，IO才是爹。

再说部署架构。单卡部署？那叫玩具。生产环境必须考虑多机多卡推理，这时候NVLink、InfiniBand的拓扑设计就关键了。跨节点通信延迟一旦上去，P99响应直接崩。建议先用nvidia-smi topo -m看拓扑，再用NCCL测试通信带宽，不然挂了都不知道怎么死的。

还有，模型量化和KV Cache优化是必选项。FP16跑满血模型？成本上天。INT4/INT8量化+speculative decoding，能让你把吞吐翻3倍，延迟还降。别偷懒，该做calibration就做。

最后，别忽略调度层。模型多版本上线、灰度发布、A/B测试，你的K8s+自定义调度器够不够用？我见过直接用K8s默认调度器的，卡都分错了。

抛个问题：你们在实际部署中，遇到的“最反直觉”的瓶颈是啥？显存碎片？还是模型加载时间？来聊聊。🔥