模型推理加速三板斧：剪枝、量化、蒸馏，实测对比来了！

显示全部楼层

这几年搞模型部署，最头疼就是推理太慢。我踩过不少坑，今天直接上干货，聊聊落地常用的三种加速方案——剪枝、量化和蒸馏，附实测对比。

🧠 **剪枝：砍掉冗余参数**
结构化剪枝砍通道，非结构化砍权重。实测ResNet-50做50%稀疏，用NVIDIA TensorRT跑，吞吐提升约1.8倍，精度掉不到1%。缺点是依赖硬件支持，CPU上收益有限。

⚡ **量化：INT8换精度提速度**
最实用！PyTorch自带量化工具，层融合加INT8，YOLOv5在T4显卡上推理从20ms降到8ms，精度损失0.5%以内。注意校准集要选对，否则边界值爆炸。

🔥 **蒸馏：大模型教小模型**
BERT-large蒸馏成TinyBERT，参数量缩70%，在CPU上推理速度翻3倍，GLUE分数只跌2%。适合场景：需要低延迟但不想重训。

组合拳更猛：先蒸馏再量化，MobileNetV3上FP32转INT8，延迟从15ms降到4ms，精度仅降1.2%。不过别盲目堆，先做profiling，找到瓶颈层再动手。

**问题抛出来**：你们部署时更倾向用TensorRT还是ONNX Runtime？有踩过什么奇葩坑吗？评论区聊聊。