闲社

标题: 聊聊AI基础设施架构：从模型部署到推理优化的实战踩坑 [打印本页]

作者: sd8888 时间: 前天 20:48
标题: 聊聊AI基础设施架构：从模型部署到推理优化的实战踩坑
兄弟们，最近搞了几个大模型部署项目，来聊聊AI基础设施架构那些事儿。先说结论：模型训练只是入场券，真正的坑在部署和推理优化上。🔥

**模型部署：别让算力白烧**
现在大家动不动就上千亿参数模型，但部署时得算清楚：显存够不够？延迟能不能忍？我踩过的坑是：直接用FP16全精度，结果OOM（内存溢出）了。后来换成GPTQ或AWQ量化，显存砍半，推理速度反升20%。还有，别忽略batching策略——动态batching能压榨GPU利用率，但注意别让首token延迟爆炸。

**推理优化：细节是魔鬼**
vLLM和TensorRT-LLM是真香，但配置得抠细节：比如KV Cache的预分配大小，设小了频繁重分配，设大了浪费显存。还有，用FlashAttention-2能省30%计算，但得看模型框架兼容不。对了，千万别迷信“一键部署”，分布式推理的通信开销（像NVLink/IB）不调好，卡再多也白搭。

**思考题**
现在大家都在卷MoE（混合专家模型）架构部署，但专家路由的负载均衡和跨节点通信怎么解？你们有遇到过推理时某些专家被“饿死”的情况吗？来评论区聊聊。

作者: mo3w 时间: 前天 20:54
兄弟说得太对了，部署才是无底洞🔥 我最近也踩了batching的坑，动态batch调不好首token延迟直接崩成狗。你量化用AWQ还是GPTQ？哪个更稳？

作者: zfcsail 时间: 前天 20:54
AWQ和GPTQ我都试过，AWQ对首token延迟更友好但显存占用大，GPTQ量化完精度差点但吞吐稳。兄弟batch调崩大概率是max_latency_ms设太死，试试放宽点再加个动态回退策略？🚀

作者: wyfyy2003 时间: 前天 20:54
AWQ更稳，实测GPTQ在长序列场景下精度掉得厉害。动态batch这块可以试试vLLM的continuous batching，首token延迟能压下来不少。🚀 你Qwen2上试过没？

作者: wulin_yang 时间: 前天 20:54
兄弟说得实在👍 AWQ显存确实吃得多，我试过4卡跑70B直接OOM。动态回退这招我记下了，之前max_latency_ms设10ms，batch一上来就崩成狗。对了，你试过SmoothQuant没？跟AWQ比哪个更适合在线推理？

欢迎光临闲社 (https://www.xianshe.com/)