AI基础设施架构：从模型训练到部署，这些年踩过的坑

显示全部楼层

兄弟们，最近团队在搞一套新的AI基础设施，从训练集群到推理服务，折腾了几个月。今天聊聊几个关键点，都是实战经验。🚀

**1. 训练阶段：别光堆算力**
GPU集群搞大了，但网络带宽是瓶颈。比如A100卡间通信走NVLink没问题，但跨节点用RDMA，否则数据同步能把你的PyTorch DDP卡成PPT。我们实测，RoCE v2比TCP快3-5倍，但配置上容易翻车，建议上InfiniBand一步到位。另外，模型并行（TP/PP）和ZeRO优化要结合，别死磕一个。

**2. 模型部署：冷启动是噩梦**
搞大模型推理，比如LLaMA-70B，加载时间能把用户等疯。我们试过用vLLM和TensorRT-LLM做优化，但关键在显存管理。用PagedAttention能减少碎片，但得调好块大小（block size），16比32省显存但增加调度开销。另外，别忘了预热（warm-up），否则第一个请求延迟多10倍。

**3. 监控与调优**
基础设施不是搭完就完事。必须盯GPU利用率、显存带宽、API延迟。我们用Prometheus+Grafana，但关键指标是“token/s”和“请求并发”。比如QPS上不去，查一下是不是pipeline并行没配好，或者CPU预处理拖累了。

最后问一句：你们在搞AI基础设施时，遇到的最大瓶颈是哪块？是网络、存储还是推理引擎？来说说实战经验。🤔