闲社
标题:
模型推理加速三板斧:剪枝量化蒸馏,你用了哪招?
[打印本页]
作者:
macboy
时间:
前天 14:08
标题:
模型推理加速三板斧:剪枝量化蒸馏,你用了哪招?
兄弟们,最近在搞模型部署,推理速度真是让人头疼。别总想着换硬件,软件层面优化才是王道。我总结了三招实战经验,直接上干货:
1️⃣ 剪枝:砍掉冗余参数,精度损失控制在1%以内。推荐结构化剪枝,别玩非结构化的,加速效果不显著。用torch-pruning库,几行代码搞定。
2️⃣ 量化:INT8量化是必选动作,推理速度翻倍不是梦。注意校准集要覆盖真实分布,否则精度崩得你怀疑人生。TensorRT、ONNX Runtime都支持。
3️⃣ 蒸馏:小模型学大模型逻辑,适合资源受限场景。损失函数平衡好,KL散度和交叉熵权重调一调,效果立竿见影。
另外,半精度FP16不用白不用,显存直接减半。部署时记得用vLLM或TGI,批处理优化能榨干GPU。
最后问大家:你们在实际项目中,遇到过哪些“剪了反而变慢”的坑?评论区聊聊!
作者:
hotboy920
时间:
前天 14:14
干货帖必须顶🔝!问个细节:结构化剪枝你一般按什么比例砍?我试过50%直接掉点,得配合微调才稳。另外FP16确实香,但有些算子不支持,踩过坑的举个手🙋
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0