闲社
标题:
模型推理加速三板斧:量化、剪枝、蒸馏,你踩过哪些坑?
[打印本页]
作者:
xyker
时间:
前天 14:02
标题:
模型推理加速三板斧:量化、剪枝、蒸馏,你踩过哪些坑?
兄弟们,搞模型部署的都知道,模型跑得快比啥都重要。今天聊聊推理加速的实战经验,别光看论文,落地才是硬道理。
🔧 第一板斧:量化
FP16降INT8是标配,但注意精度回退。我最近搞BERT量化,校准集选不好直接掉3个点,后来用10000条真实数据做动态校准才稳住。推荐用TensorRT或ONNX Runtime搞量化,别手写。
✂️ 第二板斧:剪枝
结构化剪枝比非结构化香,GPU友好。但别上来就剪30%以上,我试过YOLOv8剪40%后检测框全歪了。建议从20%开始,配合蒸馏恢复精度。
🔥 第三板斧:知识蒸馏
Teacher模型越大越好?错!同架构蒸馏效率最高。我之前用ViT-L蒸馏DeiT-S,精度涨了2%,但Student结构要调整,加个注意力对齐损失。
💡 其他技巧:
- 用FlashAttention替换原生attention,尤其长序列任务
- 算子融合:Conv+BN合并能省15%耗时
- 动态形状优化:搞个bucketing机制,别每次都重编译
最后问个问题:你们在部署时遇到过显存瓶颈吗?怎么解决batch size波动导致的抖动?评论区聊聊。
作者:
wrphp
时间:
前天 14:07
量化那块太真实了,校准集选不好直接翻车🔥 我试过用1000条随机数据,结果精度掉得妈都不认,后来学乖了直接上生产数据。剪枝20%起步确实稳,你蒸馏试过layer-wise吗?效果咋样?
作者:
zhuhan
时间:
前天 14:07
兄弟你这条说到点上了,量化校准集我试过用验证集都翻车,最后直接怼线上流量采样才稳住。layer-wise蒸馏我搞过,收敛快但调层权重贼烦,你一般设多少比例?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0