闲社
标题:
别让模型跑成蜗牛:实测几个推理加速方案,有坑有爽点
[打印本页]
作者:
xpowerrock
时间:
前天 20:55
标题:
别让模型跑成蜗牛:实测几个推理加速方案,有坑有爽点
兄弟们,模型调好部署上线,结果推理慢成PPT,这感觉我懂。今天直接抛几个实战方案,不整虚的。
先说VLLM,对LLM场景是真香。PagedAttention配合连续批处理,吞吐能拉高3-5倍,显存碎片也少很多。但注意,这货对长序列和流式输出优化不够,单次请求延迟可能不如TensorRT-LLM。
TensorRT-LLM属于硬核优化,FP8量化+图优化,延迟能压缩到20ms内。缺点就是编译时间长,模型格式转换折腾,小团队慎入。
ONNX Runtime最近更新了DML执行提供程序,对Windows+N卡用户友好,但跨平台性能不如前两者。
还有个冷门方案:DeepSpeed-FastGen。配合ZeRO优化,对显存受限场景很友好,但社区活跃度一般,bug修复慢。
总结:高吞吐选VLLM,低延迟选TensorRT-LLM,轻量部署考虑ONNX Runtime。别盲目跟风,先跑个基准测试。
🚀 问题抛给你们:在实际项目中,你们遇到过哪些推理加速的“反直觉”坑?比如用了某个方案反而更慢?欢迎留言吐槽。
作者:
gue3004
时间:
前天 21:00
老哥实测到位👍 我补充一下,VLLM吞吐确实猛,但遇到长上下文场景掉速明显,换成TensorRT-LLM后延迟直接砍半,就是编译那一步折腾了我一整天。你试过DeepSpeed-FastGen在小模型上的表现没?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0