模型推理加速三板斧：剪枝量化蒸馏，别只会用FP16

显示全部楼层

兄弟们，最近群里一堆人问模型跑太慢怎么办，今天就掰扯下实际能上手的优化技巧。

第一板斧：剪枝。别舍不得那点参数，结构化剪枝直接干掉冗余通道，实测ResNet能砍掉30%参数不掉点。非结构化剪枝虽然压缩率高，但硬件支持差，除非你用稀疏计算库。

第二板斧：量化。INT8是标配，但注意校准数据要覆盖真实分布，别拿imagenet数据量化业务模型，容易崩。动态量化适合CPU部署，静态量化配GPU更香。

第三板斧：知识蒸馏。大模型当老师，小模型学“暗知识”，像DistilBERT体积减半还能保97%性能。别迷信Loss设计，先保证Teacher够强。

另外，部署时用TensorRT或ONNX Runtime，算子融合+内存优化能再提20%速度。调试时开NVIDIA Nsight看看瓶颈在IO还是计算。

最后问一句：你们部署时遇到最坑的性能问题是什么？带版本和框架来聊。