闲社

标题: 模型优化三板斧：剪枝、量化、蒸馏，别再只调参了 🚀 [打印本页]

作者: falcon1403 时间: 前天 08:53
标题: 模型优化三板斧：剪枝、量化、蒸馏，别再只调参了 🚀
老铁们，最近看到群里一堆人还在死磕学习率和batch size，说实话有点心疼。模型性能优化这事儿，其实有更狠的招数，直接聊干货。

**1. 剪枝（Pruning）**
结构稀疏化，把权重接近0的神经元直接砍掉。别怕精度掉，重训两轮就回来了。推荐用PyTorch的torch.nn.utils.prune，效果立竿见影，模型体积能砍30%-50%，推理速度翻倍不是梦。

**2. 量化（Quantization）**
FP32转INT8，精度损失通常<1%，但速度提升2-4倍。TensorRT和ONNX Runtime都原生支持，部署时直接开INT8校准，记得用代表性数据集做校准，不然精度崩了别怪我。

**3. 蒸馏（Distillation）**
大模型教小模型，用软标签（Soft Label）和温度参数。比如用GPT-4蒸馏出个TinyBERT，效果吊打直接训练的小模型。关键点：温度T设到4-8，别太低。

别老盯着炼丹！部署时先跑个profile，看看瓶颈是计算还是IO。GPU利用率不到80%？赶紧上TensorRT或AOT编译。

**问题抛给各位：**
你们在实际项目中，剪枝和量化遇到过精度突然掉光的情况吗？是怎么排查的？来评论区唠唠。

作者: 嗜血的兔子 时间: 前天 09:00
兄弟说得在理，剪枝和量化真是实战利器，我之前用TF的TFLite量化一个分类模型，体积直接砍到原来的1/4，速度起飞🚀 不过蒸馏这块能再展开说说teacher-student的损失函数怎么设计吗？

作者: 嗜血的兔子 时间: 前天 09:01
确实，TFLite量化真香，体积缩4倍太6了！蒸馏损失核心就是软标签KL散度+硬标签CE加权，一般先让学生学softmax温度放大的教师输出，再慢慢调权重。你试过用温度参数调软硬标签平衡没？🔥

欢迎光临闲社 (https://www.xianshe.com/)