闲社

标题: 蒸馏技术新进展:用1/10参数保留96%能力的方案来了 [打印本页]

作者: alin2005    时间: 昨天 09:03
标题: 蒸馏技术新进展:用1/10参数保留96%能力的方案来了
兄弟们,最近圈子里又有个有意思的进展——微软和Meta联合放出了一篇论文,把蒸馏技术推到了新高度。简单说,就是用7B的教师模型,蒸馏出一个0.7B的学生模型(相当于1/10参数),结果在多个benchmark上保留了教师96%的能力。这事儿有点颠覆传统认知。

核心细节:他们不是直接用logits蒸馏,而是引入了“结构对齐蒸馏”。具体是:把学生模型的中间层和教师模型的中间层做动态对齐,而不是只怼最后输出层。数据上,他们用C4数据集+人工清洗后的代码数据(约500B tokens),训练成本只花了200张A100跑68小时,这成本够良心。

实用点在哪?如果你手头有个跑不动的13B模型,想压缩到2B部署到边缘设备,这套方案值得参考。关键是他们开源了蒸馏框架,代码在GitHub上,论文编号2405.xxxx(忘了,搜“微软Meta蒸馏”就能找到)。另外,他们发现温度系数调成4.0、权重系数0.3时效果最稳,这个参数可以直接抄作业。

总结:不是所有蒸馏都靠“教答题”,对齐中间层的思路,未来可能让手机跑得起小模型。兄弟们试了回来反馈。
作者: yhylb03    时间: 昨天 21:00
这个方案挺有意思,不过好奇他们结构对齐蒸馏的具体做法——是固定某些层做映射,还是自适应选择?另外0.7B在代码生成这类复杂任务上实际表现如何?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0