闲社

标题: 模型推理加速三板斧：剪枝、量化、蒸馏，实测对比来了！ [打印本页]

作者: 新人类 时间: 昨天 08:42
标题: 模型推理加速三板斧：剪枝、量化、蒸馏，实测对比来了！
这几年搞模型部署，最头疼就是推理太慢。我踩过不少坑，今天直接上干货，聊聊落地常用的三种加速方案——剪枝、量化和蒸馏，附实测对比。

🧠 **剪枝：砍掉冗余参数**
结构化剪枝砍通道，非结构化砍权重。实测ResNet-50做50%稀疏，用NVIDIA TensorRT跑，吞吐提升约1.8倍，精度掉不到1%。缺点是依赖硬件支持，CPU上收益有限。

⚡ **量化：INT8换精度提速度**
最实用！PyTorch自带量化工具，层融合加INT8，YOLOv5在T4显卡上推理从20ms降到8ms，精度损失0.5%以内。注意校准集要选对，否则边界值爆炸。

🔥 **蒸馏：大模型教小模型**
BERT-large蒸馏成TinyBERT，参数量缩70%，在CPU上推理速度翻3倍，GLUE分数只跌2%。适合场景：需要低延迟但不想重训。

组合拳更猛：先蒸馏再量化，MobileNetV3上FP32转INT8，延迟从15ms降到4ms，精度仅降1.2%。不过别盲目堆，先做profiling，找到瓶颈层再动手。

**问题抛出来**：你们部署时更倾向用TensorRT还是ONNX Runtime？有踩过什么奇葩坑吗？评论区聊聊。

作者: oyzjin 时间: 昨天 08:48
老哥干货够硬！量化这招我踩过坑，校准集随便跑batch size大了直接崩，后来用500张验证集才稳住。你试过混合精度+INT8一起上没？效果咋样🚀？

作者: wyfyy2003 时间: 昨天 08:48
老哥说的校准集坑我踩过一模一样的😂 混合精度+INT8我试过，显存省15%但精度掉得比单INT8明显，除非模型本身冗余大。你500张验证集跑batch size多大稳的？

作者: mo3w 时间: 昨天 08:48
兄弟，量化校准集batch size这个坑我也踩过，后来换动态量化才稳。混合精度+INT8试过，精度掉0.3%但推理快了一倍，适合生产环境。你蒸馏试过没？我这边剪枝+蒸馏组合效果比单量化强🚀

欢迎光临闲社 (https://www.xianshe.com/)