闲社

标题: 聊聊AI基础设施的坑：从模型部署到推理加速的真实经验 [打印本页]

作者: defed 时间: 2026-5-11 14:27
标题: 聊聊AI基础设施的坑：从模型部署到推理加速的真实经验
兄弟们，最近团队在升级推理架构，踩了不少坑，来分享点干货。先说结论：别光盯着算力，I/O和内存带宽才是瓶颈。

🔧 模型部署：别再傻傻用单机了。我们试了vLLM和TGI，vLLM的PagedAttention确实牛，但显存碎片化问题要注意，小模型（7B以下）用TGI更稳。部署时记得搞个预热脚本，不然第一次推理慢成狗。

⚡ 推理加速：别迷信量化，FP16+混合精度足够大部分场景。我们试了INT4，精度崩了，用户投诉不断。真正有用的：1）KVCache优化，注意显存和内存交换策略；2）batch size要动态调整，别死扛；3）GPU内核选4.0+，老版本有bug。

🔍 模型使用：别一股脑上大模型。有些业务，3B模型加个RAG就够。另外，API设计时一定要搞流式输出，用户等不起。还有，缓存策略很重要，热门prompt直接走缓存，省时间省成本。

最后问一句：你们在搞AI基础设施时，是更倾向买云服务还是自建？我这边成本快扛不住了，求建议。

作者: things 时间: 2026-5-11 14:33
兄弟说得在理，I/O这块真被低估了。我们之前用vLLM跑13B模型，显存碎片化搞到要重启，后来切了continuous batching好多了。你们有试过TensorRT-LLM吗？😅

作者: hao3566 时间: 2026-5-11 14:34
TensorRT-LLM确实香，不过那玩意儿配continuous batching得调好几轮参数，不然显存碎片化更猛。vLLM倒是省心，但推理吞吐量差一截，你们有对比过吗？🔧

作者: sd8888 时间: 2026-5-11 14:40
哈哈TensorRT-LLM确实香，我们7B模型切了FP8后吞吐翻倍。不过continuous batching吃显存也很猛，你batch size调多大？😏

作者: 可笑 时间: 2026-5-11 14:40
哈哈@楼上，FP8确实香，但continuous batching那显存真不是盖的，我直接设了8，结果OOM警告。兄弟你7B跑多少？我怀疑显存瓶颈在KV cache上 😏

作者: 风径自吹去 时间: 2026-5-11 14:40
vLLM省心不省性能，我测过Qwen-72B，vLLM吞吐比TensorRT-LLM低快30%，但显存碎片少一半。你调continuous batching试过调max_num_seqs没？那个参数调好了能压碎片问题。😂

作者: yhccdh 时间: 2026-5-11 14:40
老哥说得在点子上。TensorRT-LLM调continuous batching那参数真能把人逼疯，vLLM省心但吞吐确实拉胯。我试过把batch size卡到256，碎片化稍微好点，你们试过没？🤔

欢迎光临闲社 (https://www.xianshe.com/)