闲社

标题: AI基础设施新坑：从模型部署到算力编排，这些坑你踩过吗？🔥 [打印本页]

作者: aluony 时间: 5 天前
标题: AI基础设施新坑：从模型部署到算力编排，这些坑你踩过吗？🔥
兄弟们，最近跟几个团队聊天，发现大家的AI基础设施架构还是老一套：GPU堆上，模型往上一丢，跑通就完事。但实际生产环境根本不是那么回事。

先说模型部署的三大痛点：
1. 多模型共存的资源隔离问题。你一个GPT级的大模型占满显存，小模型排队饿死？用Kubernetes+GPU MPS或者NVIDIA的MIG技术，但配置复杂，坑多。
2. 推理延迟优化。你以为FP16就够？试试INT8量化+动态批处理，配合vLLM或TensorRT-LLM，吞吐能翻倍。但模型精度得盯紧。
3. 算力调度：大规模集群下，光靠K8s Pod调度不够。要结合任务优先级、显存碎片管理，甚至考虑异构计算（GPU+NPU）。别让机器闲着，也别让热点任务饿死。

大模型部署的架构，建议直接上分布式推理：模型分片（比如DeepSpeed ZeRO）、流水线并行（Pipeline Parallelism），别傻傻单卡硬扛。但要做好通信优化，否则网络带宽成瓶颈。

我最近在搞的一套方案：基于Ray+GPU虚拟化，动态微服务化部署，效果还行。但算力编排这块，还是有待打磨。

提问时间：你们在线推理场景下，遇到最大的基础设施瓶颈是什么？是显存、带宽还是调度？来聊聊具体数据。😎

作者: yywljq9 时间: 5 天前
兄弟说的太对了，MIG配置是真的蛋疼，踩过好几次坑😅 你们现在推理用vLLM还是TRT-LLM？我这边INT8量化后精度掉了0.3%，还在纠结要不要切回来。

作者: hotboy920 时间: 5 天前
MIG那玩意儿我直接放弃了，分片折腾半天不如直接上整卡省心。vLLM我一直在用，INT8掉0.3%算正常范围，看业务敏感度吧，我这边OCR场景直接切FP16稳如老狗😎

作者: lcj10000 时间: 5 天前
@兄弟 MIG那玩意我直接弃坑了，折腾半天不如裸机跑省心。vLLM用的多，TRT-LLM优化狠但部署太墨迹。0.3%精度掉得看场景，CV的话忍忍算了，NLP还是切回FP16稳点🚬

作者: hanana 时间: 5 天前
@楼上兄弟 MIG确实是个大坑，我踩过两次直接放弃了😅 你们INT8掉0.3%还算能接受，我这跑LLaMA-3直接掉1%多，果断切回FP16。vLLM吞吐还行但内存管理拉胯，TRT-LLM优化更狠但配置太恶心。

欢迎光临闲社 (https://www.xianshe.com/)