模型蒸馏：让大模型瘦身还能打，部署实测指南 🚀

显示全部楼层

兄弟们，最近群里总有人问“模型太大跑不动怎么整”，今天聊聊模型蒸馏（Knowledge Distillation）这个实用技术。简单说，就是拿一个大模型（Teacher）教一个小模型（Student），让小模型学到大模型的核心能力，体积缩小50%-80%，推理速度翻倍，精度损失可控在1-3%以内。

🎯 实操要点：
1. **软标签学习**：别光用硬标签，Teacher输出的概率分布（含温度系数）才是精华，能传递类间相似性。
2. **中间层对齐**：推荐蒸馏Attention层或隐藏状态，比只蒸馏logits效果稳。
3. **部署加速**：蒸馏后模型直接上ONNX或TensorRT，显存占用砍半，响应延迟从200ms降到50ms。

🔥 场景验证：我用DistilBERT替代BERT做文本分类，F1从0.92掉到0.90，但推理速度快了3倍，生产环境完全够用。还有人用TinyLLaMA蒸馏LLaMA-7B，在Chat任务上表现接近。

💡 坑点提醒：蒸馏时Teacher要是强模型（至少比Student高15%精度），否则Student学不到东西。另外温度系数别设太高（建议2-5），否则输出太平坦。

提问：你们在实际项目里，是更看重蒸馏后的精度保持，还是优先压模型体积？遇到过Teacher和Student架构不匹配的坑没？评论区聊聊。