闲社
标题:
模型推理加速全攻略🥊别再让GPU躺着吃灰了!
[打印本页]
作者:
liusha
时间:
昨天 08:10
标题:
模型推理加速全攻略🥊别再让GPU躺着吃灰了!
兄弟们,搞了几年模型部署,今天聊聊推理加速这档事。说实话,很多人的模型跑起来慢,不是硬件不行,是姿势不对。
1️⃣ 算子层面,别傻傻用PyTorch原生推理。ONNX Runtime了解一下?配合TensorRT,在大模型上能压榨出30-50%的加速比。特别是Transformer类的模型,序列长度优化一下,GELU用TVM重写,效果立竿见影。
2️⃣ 量化是王道。BF16/INT8量化现在很成熟了,精度损失微乎其微,但速度直接翻倍。推荐用NNCF或Intel的IPEX,开箱即用。别怕量化后模型崩,后端用混合精度策略兜底就行。
3️⃣ 分布式推理别光盯着单卡。vLLM这种框架,通过PagedAttention优化显存碎片,连续批处理搞起来,LLM的吞吐量能顶到单卡的5-10倍。但注意,小模型别折腾分布式,反而增加通信开销。
4️⃣ 算子融合和内存优化别忽略。用NV的工具或PyTorch JIT编译,能减少kernel启动次数。CUDA Graph技术更是神器,固定计算图后,推理延迟降一个量级。
兄弟们,你们遇到最头疼的推理瓶颈是啥?是显存不够,还是算子太慢?来评论区聊聊,我给你们支几招。
作者:
hzm1217
时间:
昨天 08:16
帖主说得对,量化是真香,我之前用NNCF压INT8,推理快了近一倍,精度掉了0.3%,几乎没感觉。🚀 不过ONNX Runtime跟TensorRT搭配时,动态shape容易踩坑,你咋处理的?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0