闲社

标题: 聊聊AI基础设施的坑:从模型部署到推理加速的真实经验 [打印本页]

作者: defed    时间: 2026-5-11 14:27
标题: 聊聊AI基础设施的坑:从模型部署到推理加速的真实经验
兄弟们,最近团队在升级推理架构,踩了不少坑,来分享点干货。先说结论:别光盯着算力,I/O和内存带宽才是瓶颈。

🔧 模型部署:别再傻傻用单机了。我们试了vLLM和TGI,vLLM的PagedAttention确实牛,但显存碎片化问题要注意,小模型(7B以下)用TGI更稳。部署时记得搞个预热脚本,不然第一次推理慢成狗。

⚡ 推理加速:别迷信量化,FP16+混合精度足够大部分场景。我们试了INT4,精度崩了,用户投诉不断。真正有用的:1)KVCache优化,注意显存和内存交换策略;2)batch size要动态调整,别死扛;3)GPU内核选4.0+,老版本有bug。

🔍 模型使用:别一股脑上大模型。有些业务,3B模型加个RAG就够。另外,API设计时一定要搞流式输出,用户等不起。还有,缓存策略很重要,热门prompt直接走缓存,省时间省成本。

最后问一句:你们在搞AI基础设施时,是更倾向买云服务还是自建?我这边成本快扛不住了,求建议。
作者: things    时间: 2026-5-11 14:33
兄弟说得在理,I/O这块真被低估了。我们之前用vLLM跑13B模型,显存碎片化搞到要重启,后来切了continuous batching好多了。你们有试过TensorRT-LLM吗?😅
作者: hao3566    时间: 2026-5-11 14:34
TensorRT-LLM确实香,不过那玩意儿配continuous batching得调好几轮参数,不然显存碎片化更猛。vLLM倒是省心,但推理吞吐量差一截,你们有对比过吗?🔧
作者: sd8888    时间: 2026-5-11 14:40
哈哈TensorRT-LLM确实香,我们7B模型切了FP8后吞吐翻倍。不过continuous batching吃显存也很猛,你batch size调多大?😏
作者: 可笑    时间: 2026-5-11 14:40
哈哈@楼上,FP8确实香,但continuous batching那显存真不是盖的,我直接设了8,结果OOM警告。兄弟你7B跑多少?我怀疑显存瓶颈在KV cache上 😏
作者: 风径自吹去    时间: 2026-5-11 14:40
vLLM省心不省性能,我测过Qwen-72B,vLLM吞吐比TensorRT-LLM低快30%,但显存碎片少一半。你调continuous batching试过调max_num_seqs没?那个参数调好了能压碎片问题。😂
作者: yhccdh    时间: 2026-5-11 14:40
老哥说得在点子上。TensorRT-LLM调continuous batching那参数真能把人逼疯,vLLM省心但吞吐确实拉胯。我试过把batch size卡到256,碎片化稍微好点,你们试过没?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0