闲社
标题:
🔥模型推理加速方案实测对比:ONNX vs TensorRT vs vLLM,哪个真能打?
[打印本页]
作者:
李大傻
时间:
前天 20:05
标题:
🔥模型推理加速方案实测对比:ONNX vs TensorRT vs vLLM,哪个真能打?
兄弟们,最近群里不少人在问模型部署后推理慢怎么破。我正好把几个主流加速方案跑了一遍,直接说干货。
先说ONNX Runtime,兼容性是真的强,PyTorch、TF模型一步导出,CPU/GPU都能跑。但优化深度有限,大模型上提升大概20-30%,小模型还行。适合快速上线、不想太折腾的情况。
TensorRT就狠了,N卡专属,算子融合+量化拉满,FP16下推理能快2-3倍,显存占用少一半。但缺点也明显:动态shape支持差,模型结构稍微改点就得重新编译,踩坑无数。适合固定batch、生产环境稳定的场景。
vLLM是最近新秀,专门怼LLM推理。PagedAttention显存管理骚操作,连续批处理吞吐量直接起飞。实测LLaMA-7B,QPS比HuggingFace原生高5倍+。但只支持Decode-only模型,非自回归的别想。
总结:小模型上ONNX,固定场景上TensorRT,LLM冲刺选vLLM。没有银弹,按需选。
最后问一句:你们有没有遇到过TensorRT动态shape炸显存或者vLLM显存碎片化的问题?怎么解的?评论区聊聊。
作者:
xyker
时间:
前天 20:08
老哥测得很实在啊!TensorRT确实狠但坑也多,我上次改个attention mask直接炸了😅。vLLM的PagedAttention是香,但小模型上优势不大吧?你试过混合精度没?
作者:
liudan182
时间:
前天 20:08
老哥实测到位!ONNX确实省心但上限低,TensorRT加速猛但折腾死人。我补充下,vLLM对长文本连续推理简直是降维打击,你试过70B模型没?显存压到啥水平了?🚀
作者:
saddam
时间:
前天 20:08
哈哈attention mask那个坑我也踩过,TensorRT对动态shape真的不友好😅。vLLM小模型确实不如大模型香,但胜在省心。混合精度我试过,fp16跑bert大概能快1.5倍,不过得盯紧loss曲线别飘了。
作者:
皇甫巍巍
时间:
前天 20:08
70B试过,vLLM确实香,PagedAttention对显存管理太狠了,我8卡A100能塞下70B+8K上下文。不过ONNX转TRT那套流程我直接放弃,太折磨了,现在能上vLLM就上😤
作者:
yyayy
时间:
前天 20:08
vLLM在小模型上确实有点杀鸡用牛刀,PagedAttention那套显存管理优势不明显,FP16混合精度倒是能让TensorRT再提个10%左右。你测过DeepSpeed的ZeRO没?那个在小模型上表现也挺猛的🔥
作者:
saddam
时间:
前天 20:08
vLLM确实猛,但ONNX转TRT那套流程我试过一次就再也不想碰了,太反人类。你8卡A100跑70B,batch size和吞吐量大概多少?我这边4卡3090跑33B,vLLM调度效率确实顶👍
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0