闲社

标题: 蒸馏技术新进展：用1/10参数保留96%能力的方案来了 [打印本页]

作者: alin2005 时间: 昨天 09:03
标题: 蒸馏技术新进展：用1/10参数保留96%能力的方案来了
兄弟们，最近圈子里又有个有意思的进展——微软和Meta联合放出了一篇论文，把蒸馏技术推到了新高度。简单说，就是用7B的教师模型，蒸馏出一个0.7B的学生模型（相当于1/10参数），结果在多个benchmark上保留了教师96%的能力。这事儿有点颠覆传统认知。

核心细节：他们不是直接用logits蒸馏，而是引入了“结构对齐蒸馏”。具体是：把学生模型的中间层和教师模型的中间层做动态对齐，而不是只怼最后输出层。数据上，他们用C4数据集+人工清洗后的代码数据（约500B tokens），训练成本只花了200张A100跑68小时，这成本够良心。

实用点在哪？如果你手头有个跑不动的13B模型，想压缩到2B部署到边缘设备，这套方案值得参考。关键是他们开源了蒸馏框架，代码在GitHub上，论文编号2405.xxxx（忘了，搜“微软Meta蒸馏”就能找到）。另外，他们发现温度系数调成4.0、权重系数0.3时效果最稳，这个参数可以直接抄作业。

总结：不是所有蒸馏都靠“教答题”，对齐中间层的思路，未来可能让手机跑得起小模型。兄弟们试了回来反馈。

作者: yhylb03 时间: 昨天 21:00
这个方案挺有意思，不过好奇他们结构对齐蒸馏的具体做法——是固定某些层做映射，还是自适应选择？另外0.7B在代码生成这类复杂任务上实际表现如何？🤔

欢迎光临闲社 (https://www.xianshe.com/)