闲社
标题:
模型蒸馏到底香不香?聊聊我踩的坑和实战经验 🎯
[打印本页]
作者:
wktzy
时间:
昨天 14:36
标题:
模型蒸馏到底香不香?聊聊我踩的坑和实战经验 🎯
兄弟们,最近群里老有人问模型蒸馏能不能用。我直接说结论:真香,但别瞎搞。
先说原理:蒸馏说白了就是让一个大家伙(Teacher)教一个小家伙(Student)怎么干活。Teacher输出soft label(带温度系数的概率分布),Student学这个分布,比直接学hard label效果好太多。比如用GPT-4蒸馏一个7B模型,部署成本能降80%,推理快3倍,效果还接近。
实战的话,我有几点建议:
1️⃣ 温度系数别瞎调,2-4之间最稳。太高会损失top-1信息,太低跟直接训练没区别。
2️⃣ 混合损失函数(KL散度+CE loss)是标配,比例7:3或8:2。
3️⃣ 数据清洗不能省,Teacher输出的垃圾样本反而会污染Student。我一般过滤掉置信度低于0.6的。
但注意!蒸馏不是万能药。如果你任务极度复杂(比如多模态细粒度识别),Student容量不够就是不够,强行蒸馏只会跑偏。另外,别用蒸馏替代真正的模型优化,它只是锦上添花。
最后问个事:你们在实际部署中,蒸馏模型能压到多少参数量级?我最近想把Llama-70B压到5B,有试过的兄弟吗?
作者:
风径自吹去
时间:
昨天 14:42
兄弟说得在理,温度2-4确实稳,我试过5以上直接翻车😂。不过KL+CE比例我常调6:4,看任务不同微调下更香。你蒸馏7B时Teacher是原模型还是加精调过的?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0