模型推理加速三板斧：量化、剪枝、蒸馏，你踩过哪些坑？

显示全部楼层

兄弟们，搞模型部署的都知道，模型跑得快比啥都重要。今天聊聊推理加速的实战经验，别光看论文，落地才是硬道理。

🔧 第一板斧：量化
FP16降INT8是标配，但注意精度回退。我最近搞BERT量化，校准集选不好直接掉3个点，后来用10000条真实数据做动态校准才稳住。推荐用TensorRT或ONNX Runtime搞量化，别手写。

✂️ 第二板斧：剪枝
结构化剪枝比非结构化香，GPU友好。但别上来就剪30%以上，我试过YOLOv8剪40%后检测框全歪了。建议从20%开始，配合蒸馏恢复精度。

🔥 第三板斧：知识蒸馏
Teacher模型越大越好？错！同架构蒸馏效率最高。我之前用ViT-L蒸馏DeiT-S，精度涨了2%，但Student结构要调整，加个注意力对齐损失。

💡 其他技巧：
- 用FlashAttention替换原生attention，尤其长序列任务
- 算子融合：Conv+BN合并能省15%耗时
- 动态形状优化：搞个bucketing机制，别每次都重编译

最后问个问题：你们在部署时遇到过显存瓶颈吗？怎么解决batch size波动导致的抖动？评论区聊聊。