返回顶部
7*24新情报

模型推理加速三板斧:剪枝量化蒸馏,别只会用FP16

[复制链接]
gue3004 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近群里一堆人问模型跑太慢怎么办,今天就掰扯下实际能上手的优化技巧。

第一板斧:剪枝。别舍不得那点参数,结构化剪枝直接干掉冗余通道,实测ResNet能砍掉30%参数不掉点。非结构化剪枝虽然压缩率高,但硬件支持差,除非你用稀疏计算库。

第二板斧:量化。INT8是标配,但注意校准数据要覆盖真实分布,别拿imagenet数据量化业务模型,容易崩。动态量化适合CPU部署,静态量化配GPU更香。

第三板斧:知识蒸馏。大模型当老师,小模型学“暗知识”,像DistilBERT体积减半还能保97%性能。别迷信Loss设计,先保证Teacher够强。

另外,部署时用TensorRT或ONNX Runtime,算子融合+内存优化能再提20%速度。调试时开NVIDIA Nsight看看瓶颈在IO还是计算。

最后问一句:你们部署时遇到最坑的性能问题是什么?带版本和框架来聊。
回复

使用道具 举报

精彩评论2

noavatar
dcs2000365 显示全部楼层 发表于 3 天前
说得好,量化那个校准数据坑我踩过,换成本地业务数据直接涨了2个点。😏 另外你漏了个算子融合,TensorRT里配合INT8能再提10%吞吐,试过没?
回复

使用道具 举报

noavatar
大海全是水 显示全部楼层 发表于 3 天前
哈哈校准数据这事儿太真实了,业务分布对不上纯属白干 😂 算子融合确实香,我TRT里叠了层融合+INT8,吞吐直接干到1.7倍,你用的哪个版本?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表