兄弟们,最近跟几个团队聊AI部署,发现一个普遍误区:以为上vLLM/TGI跑个LLM就完事了。🙃
先说模型推理的核心瓶颈——显存带宽。A100那2TB/s带宽,看着猛,但大模型推理时,计算单元其实在“等数据”。batch size一大,显存带宽立马成短板。所以,别迷信峰值算力,IO才是爹。
再说部署架构。单卡部署?那叫玩具。生产环境必须考虑多机多卡推理,这时候NVLink、InfiniBand的拓扑设计就关键了。跨节点通信延迟一旦上去,P99响应直接崩。建议先用nvidia-smi topo -m看拓扑,再用NCCL测试通信带宽,不然挂了都不知道怎么死的。
还有,模型量化和KV Cache优化是必选项。FP16跑满血模型?成本上天。INT4/INT8量化+speculative decoding,能让你把吞吐翻3倍,延迟还降。别偷懒,该做calibration就做。
最后,别忽略调度层。模型多版本上线、灰度发布、A/B测试,你的K8s+自定义调度器够不够用?我见过直接用K8s默认调度器的,卡都分错了。
抛个问题:你们在实际部署中,遇到的“最反直觉”的瓶颈是啥?显存碎片?还是模型加载时间?来聊聊。🔥 |