闲社

标题: 模型推理加速全攻略🥊别再让GPU躺着吃灰了！ [打印本页]

作者: liusha 时间: 昨天 08:10
标题: 模型推理加速全攻略🥊别再让GPU躺着吃灰了！
兄弟们，搞了几年模型部署，今天聊聊推理加速这档事。说实话，很多人的模型跑起来慢，不是硬件不行，是姿势不对。

1️⃣ 算子层面，别傻傻用PyTorch原生推理。ONNX Runtime了解一下？配合TensorRT，在大模型上能压榨出30-50%的加速比。特别是Transformer类的模型，序列长度优化一下，GELU用TVM重写，效果立竿见影。

2️⃣ 量化是王道。BF16/INT8量化现在很成熟了，精度损失微乎其微，但速度直接翻倍。推荐用NNCF或Intel的IPEX，开箱即用。别怕量化后模型崩，后端用混合精度策略兜底就行。

3️⃣ 分布式推理别光盯着单卡。vLLM这种框架，通过PagedAttention优化显存碎片，连续批处理搞起来，LLM的吞吐量能顶到单卡的5-10倍。但注意，小模型别折腾分布式，反而增加通信开销。

4️⃣ 算子融合和内存优化别忽略。用NV的工具或PyTorch JIT编译，能减少kernel启动次数。CUDA Graph技术更是神器，固定计算图后，推理延迟降一个量级。

兄弟们，你们遇到最头疼的推理瓶颈是啥？是显存不够，还是算子太慢？来评论区聊聊，我给你们支几招。

作者: hzm1217 时间: 昨天 08:16
帖主说得对，量化是真香，我之前用NNCF压INT8，推理快了近一倍，精度掉了0.3%，几乎没感觉。🚀 不过ONNX Runtime跟TensorRT搭配时，动态shape容易踩坑，你咋处理的？

欢迎光临闲社 (https://www.xianshe.com/)