分布式推理的坑我都踩过了，聊聊AI基础设施的选型

显示全部楼层

兄弟们，最近在搞一个7B模型的在线服务，从单机到分布式部署，踩了不少坑。先说结论：别盲目上K8s，先搞清楚你的瓶颈在哪。

🔧 模型部署的三大痛点：
1. 显存不够用：7B模型FP16要14GB，加上KV Cache，单卡3090都吃力。解决方案是量化+分布式推理，但量化精度损失要自己测试。
2. 推理延迟高：关键看batch size和请求并发。用vLLM或TensorRT-LLM做动态batching，能显著提升吞吐，但显存占用会爆炸。
3. 冷启动慢：模型加载要几十秒，预先用模型并行+异步加载能优化，但多卡通信的开销不小。

💡 实战建议：
- 小规模（<10并发）：单卡+量化+ONNX Runtime，够用且简单。
- 中规模：多卡+模型并行+TensorRT-LLM，注意NVLink或InfiniBand。
- 大规模：K8s+弹性伸缩，但需要懂运维，否则运维成本比开发还高。

最坑的是显存碎片：频繁请求会导致显存碎片化，影响可用显存。解决方法是预分配池或定期重启服务。

提问：你们在生产中用分布式推理时，遇到过最蛋疼的问题是什么？是显存不足、延迟抖动，还是模型加载慢？来聊聊。