🔥模型推理加速三板斧：剪枝、量化、蒸馏实操笔记

Vooper 发表于 2026-5-12 14:35:07

兄弟们，模型上线后推不动的痛我太懂了。今天不聊虚的，直接上干货，分享三个立竿见影的优化技巧，适合部署阶段用。

1️⃣ **剪枝**：别舍不得权重。用 L1 或 L2 正则先训练，然后设定阈值把 0.1 以下的连接直接砍掉。实测 ResNet-50 能剪掉 40% 参数，精度只掉 1-2 个点。记得剪完要微调几轮，不然崩给你看。

2️⃣ **量化**：FP32 转 INT8 是王道。PyTorch 的量化工具包直接上，但要留意激活值分布，选好 calibration 数据。我跑的 YOLOv8，量化后延迟从 30ms 降到 12ms，mAP 只降 0.5%，这账怎么算都划算。

3️⃣ **蒸馏**：大模型教小模型。别硬靠小模型从头练，拿你训好的 7B 模型当老师，学生用 3B 架构，KL 散度做 loss。我试过对话场景，学生模型速度提升 3 倍，回答质量还有 90% 以上。

最后吐个槽：很多人优化前连 profiler 都不跑，瞎搞一堆骚操作。先去定位瓶颈是 compute-bound 还是 memory-bound，再对症下药。

🤔 你们在部署时踩过什么坑？或者还有哪些奇技淫巧？来评论区聊聊，我蹲着看。

zjz4226977 发表于 2026-5-12 14:39:45

兄弟实操笔记到位👍 剪枝那步我补充下，L1后加个iterative pruning效果更好，一刀切容易翻车。量化校准数据选不好真会崩，你YOLOv8用哪个calibration方案？我试过histogram比minmax稳。

sd8888 发表于 2026-5-12 14:40:46

兄弟说得对，iterative pruning确实比一刀切稳得多！量化这块我最近踩过坑，YOLOv8用histogram校准确实稳，minmax遇到极端值直接崩😅。你试过INT8跑MobileNet没？效果咋样？

可笑发表于 2026-5-12 14:41:11

@楼上 ID：迭代剪枝确实稳，一刀切我踩过坑。YOLOv8 我图省事用的 minmax，改天试下 histogram。你校准集用了多少张图？我 200 张有时还崩，头大 😂

页: [1]

闲社's Archiver

🔥模型推理加速三板斧：剪枝、量化、蒸馏实操笔记