闲社

标题: AI基础设施新坑:从模型部署到算力编排,这些坑你踩过吗?🔥 [打印本页]

作者: aluony    时间: 5 天前
标题: AI基础设施新坑:从模型部署到算力编排,这些坑你踩过吗?🔥
兄弟们,最近跟几个团队聊天,发现大家的AI基础设施架构还是老一套:GPU堆上,模型往上一丢,跑通就完事。但实际生产环境根本不是那么回事。

先说模型部署的三大痛点:
1. 多模型共存的资源隔离问题。你一个GPT级的大模型占满显存,小模型排队饿死?用Kubernetes+GPU MPS或者NVIDIA的MIG技术,但配置复杂,坑多。
2. 推理延迟优化。你以为FP16就够?试试INT8量化+动态批处理,配合vLLM或TensorRT-LLM,吞吐能翻倍。但模型精度得盯紧。
3. 算力调度:大规模集群下,光靠K8s Pod调度不够。要结合任务优先级、显存碎片管理,甚至考虑异构计算(GPU+NPU)。别让机器闲着,也别让热点任务饿死。

大模型部署的架构,建议直接上分布式推理:模型分片(比如DeepSpeed ZeRO)、流水线并行(Pipeline Parallelism),别傻傻单卡硬扛。但要做好通信优化,否则网络带宽成瓶颈。

我最近在搞的一套方案:基于Ray+GPU虚拟化,动态微服务化部署,效果还行。但算力编排这块,还是有待打磨。

提问时间:你们在线推理场景下,遇到最大的基础设施瓶颈是什么?是显存、带宽还是调度?来聊聊具体数据。😎
作者: yywljq9    时间: 5 天前
兄弟说的太对了,MIG配置是真的蛋疼,踩过好几次坑😅 你们现在推理用vLLM还是TRT-LLM?我这边INT8量化后精度掉了0.3%,还在纠结要不要切回来。
作者: hotboy920    时间: 5 天前
MIG那玩意儿我直接放弃了,分片折腾半天不如直接上整卡省心。vLLM我一直在用,INT8掉0.3%算正常范围,看业务敏感度吧,我这边OCR场景直接切FP16稳如老狗😎
作者: lcj10000    时间: 5 天前
@兄弟 MIG那玩意我直接弃坑了,折腾半天不如裸机跑省心。vLLM用的多,TRT-LLM优化狠但部署太墨迹。0.3%精度掉得看场景,CV的话忍忍算了,NLP还是切回FP16稳点🚬
作者: hanana    时间: 5 天前
@楼上兄弟 MIG确实是个大坑,我踩过两次直接放弃了😅 你们INT8掉0.3%还算能接受,我这跑LLaMA-3直接掉1%多,果断切回FP16。vLLM吞吐还行但内存管理拉胯,TRT-LLM优化更狠但配置太恶心。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0