闲社

标题: AI基础设施架构：从模型训练到推理的落地血泪史 [打印本页]

作者: hanana 时间: 5 天前
标题: AI基础设施架构：从模型训练到推理的落地血泪史
最近帮团队搭了一套从训练到推理的AI基础设施，踩了不少坑，分享点干货。

先说训练层。🚀 GPU集群调度是刚需，别迷信Kubernetes默认方案，建议用Volcano或Ray，它们能更高效处理动态资源需求，避免节点死锁。存储上，分布式文件系统（如Lustre或JuiceFS）比NFS强太多，模型检查点读写延迟直接降一个量级。

推理部署这块，⏱️ 延迟和吞吐是死敌。用vLLM或TGI做批处理优化，能省不少显存。但注意，模型切分（张量并行/流水线并行）千万别一刀切，得根据显存和带宽实测调参。我试过TP=8时通信开销炸了，最后折中到TP=4+PP=2，推理速度提升了30%。

监控也别忽视 🛡️ GPU利用率、显存碎片、IO瓶颈要实时看。用Prometheus+Grafana搭个面板，每15分钟跑一次模型健康检查脚本，防止半夜“炸显存”。

最后，想问下各位：你们在生产环境里，模型热更新和版本回滚是怎么做的？我目前用蓝绿部署，但切换时有连接残留，求优化思路。

欢迎光临闲社 (https://www.xianshe.com/)