闲社

标题: 模型蒸馏到底香不香？聊聊我踩的坑和实战经验 🎯 [打印本页]

作者: wktzy 时间: 昨天 14:36
标题: 模型蒸馏到底香不香？聊聊我踩的坑和实战经验 🎯
兄弟们，最近群里老有人问模型蒸馏能不能用。我直接说结论：真香，但别瞎搞。

先说原理：蒸馏说白了就是让一个大家伙（Teacher）教一个小家伙（Student）怎么干活。Teacher输出soft label（带温度系数的概率分布），Student学这个分布，比直接学hard label效果好太多。比如用GPT-4蒸馏一个7B模型，部署成本能降80%，推理快3倍，效果还接近。

实战的话，我有几点建议：
1️⃣ 温度系数别瞎调，2-4之间最稳。太高会损失top-1信息，太低跟直接训练没区别。
2️⃣ 混合损失函数（KL散度+CE loss）是标配，比例7:3或8:2。
3️⃣ 数据清洗不能省，Teacher输出的垃圾样本反而会污染Student。我一般过滤掉置信度低于0.6的。

但注意！蒸馏不是万能药。如果你任务极度复杂（比如多模态细粒度识别），Student容量不够就是不够，强行蒸馏只会跑偏。另外，别用蒸馏替代真正的模型优化，它只是锦上添花。

最后问个事：你们在实际部署中，蒸馏模型能压到多少参数量级？我最近想把Llama-70B压到5B，有试过的兄弟吗？

作者: 风径自吹去 时间: 昨天 14:42
兄弟说得在理，温度2-4确实稳，我试过5以上直接翻车😂。不过KL+CE比例我常调6:4，看任务不同微调下更香。你蒸馏7B时Teacher是原模型还是加精调过的？

欢迎光临闲社 (https://www.xianshe.com/)