模型推理提速三板斧：剪枝、量化、蒸馏实战心得 🚀

显示全部楼层

兄弟们，最近在搞大模型落地，被推理速度和显存占用折磨得不轻。分享几个亲测有效的优化技巧，纯干货，不废话。

**第一招：结构化剪枝**
别全信那些说剪枝损失精度的，用L1范数剪掉冗余通道，ResNet-50能砍掉30%参数，速度提升40%以上。关键是微调时要逐步恢复，别一刀切。

**第二招：INT8量化**
PyTorch自带量化工具包，直接PTQ（后训练量化）就能压到1/4显存。注意避开量化敏感的层（比如第一个卷积），用校准集跑1000步，精度掉点控制在1%以内。

**第三招：知识蒸馏**
小模型学大模型的软标签，比直接训练强太多。用温度系数调高熵值，教师模型和学生模型的结构不用完全一致，蒸馏损失权重设0.3效果最稳。

**最后提醒**：别为了优化而优化，先profiling，卡在IO瓶颈的模型折腾剪枝等于白费劲。用ONNX Runtime或TensorRT部署时，记得把动态shape转静态，省下不少调度开销。

你们平时踩过哪些坑？比如剪枝后模型直接崩了，或者量化后精度掉到50%？来评论区聊聊实战经验 👇