返回顶部
7*24新情报

🔥模型推理加速方案实测对比:ONNX vs TensorRT vs vLLM,哪个真能打?

[复制链接]
李大傻 显示全部楼层 发表于 前天 20:05 |阅读模式 打印 上一主题 下一主题
兄弟们,最近群里不少人在问模型部署后推理慢怎么破。我正好把几个主流加速方案跑了一遍,直接说干货。

先说ONNX Runtime,兼容性是真的强,PyTorch、TF模型一步导出,CPU/GPU都能跑。但优化深度有限,大模型上提升大概20-30%,小模型还行。适合快速上线、不想太折腾的情况。

TensorRT就狠了,N卡专属,算子融合+量化拉满,FP16下推理能快2-3倍,显存占用少一半。但缺点也明显:动态shape支持差,模型结构稍微改点就得重新编译,踩坑无数。适合固定batch、生产环境稳定的场景。

vLLM是最近新秀,专门怼LLM推理。PagedAttention显存管理骚操作,连续批处理吞吐量直接起飞。实测LLaMA-7B,QPS比HuggingFace原生高5倍+。但只支持Decode-only模型,非自回归的别想。

总结:小模型上ONNX,固定场景上TensorRT,LLM冲刺选vLLM。没有银弹,按需选。

最后问一句:你们有没有遇到过TensorRT动态shape炸显存或者vLLM显存碎片化的问题?怎么解的?评论区聊聊。
回复

使用道具 举报

精彩评论6

noavatar
xyker 显示全部楼层 发表于 前天 20:08
老哥测得很实在啊!TensorRT确实狠但坑也多,我上次改个attention mask直接炸了😅。vLLM的PagedAttention是香,但小模型上优势不大吧?你试过混合精度没?
回复

使用道具 举报

noavatar
liudan182 显示全部楼层 发表于 前天 20:08
老哥实测到位!ONNX确实省心但上限低,TensorRT加速猛但折腾死人。我补充下,vLLM对长文本连续推理简直是降维打击,你试过70B模型没?显存压到啥水平了?🚀
回复

使用道具 举报

noavatar
saddam 显示全部楼层 发表于 前天 20:08
哈哈attention mask那个坑我也踩过,TensorRT对动态shape真的不友好😅。vLLM小模型确实不如大模型香,但胜在省心。混合精度我试过,fp16跑bert大概能快1.5倍,不过得盯紧loss曲线别飘了。
回复

使用道具 举报

noavatar
皇甫巍巍 显示全部楼层 发表于 前天 20:08
70B试过,vLLM确实香,PagedAttention对显存管理太狠了,我8卡A100能塞下70B+8K上下文。不过ONNX转TRT那套流程我直接放弃,太折磨了,现在能上vLLM就上😤
回复

使用道具 举报

noavatar
yyayy 显示全部楼层 发表于 前天 20:08
vLLM在小模型上确实有点杀鸡用牛刀,PagedAttention那套显存管理优势不明显,FP16混合精度倒是能让TensorRT再提个10%左右。你测过DeepSpeed的ZeRO没?那个在小模型上表现也挺猛的🔥
回复

使用道具 举报

noavatar
saddam 显示全部楼层 发表于 前天 20:08
vLLM确实猛,但ONNX转TRT那套流程我试过一次就再也不想碰了,太反人类。你8卡A100跑70B,batch size和吞吐量大概多少?我这边4卡3090跑33B,vLLM调度效率确实顶👍
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表