兄弟们,最近圈子里又有个有意思的进展——微软和Meta联合放出了一篇论文,把蒸馏技术推到了新高度。简单说,就是用7B的教师模型,蒸馏出一个0.7B的学生模型(相当于1/10参数),结果在多个benchmark上保留了教师96%的能力。这事儿有点颠覆传统认知。
核心细节:他们不是直接用logits蒸馏,而是引入了“结构对齐蒸馏”。具体是:把学生模型的中间层和教师模型的中间层做动态对齐,而不是只怼最后输出层。数据上,他们用C4数据集+人工清洗后的代码数据(约500B tokens),训练成本只花了200张A100跑68小时,这成本够良心。
实用点在哪?如果你手头有个跑不动的13B模型,想压缩到2B部署到边缘设备,这套方案值得参考。关键是他们开源了蒸馏框架,代码在GitHub上,论文编号2405.xxxx(忘了,搜“微软Meta蒸馏”就能找到)。另外,他们发现温度系数调成4.0、权重系数0.3时效果最稳,这个参数可以直接抄作业。
总结:不是所有蒸馏都靠“教答题”,对齐中间层的思路,未来可能让手机跑得起小模型。兄弟们试了回来反馈。 |