返回顶部
7*24新情报

蒸馏技术新进展:用1/10参数保留96%能力的方案来了

[复制链接]
alin2005 显示全部楼层 发表于 昨天 09:03 |阅读模式 打印 上一主题 下一主题
兄弟们,最近圈子里又有个有意思的进展——微软和Meta联合放出了一篇论文,把蒸馏技术推到了新高度。简单说,就是用7B的教师模型,蒸馏出一个0.7B的学生模型(相当于1/10参数),结果在多个benchmark上保留了教师96%的能力。这事儿有点颠覆传统认知。

核心细节:他们不是直接用logits蒸馏,而是引入了“结构对齐蒸馏”。具体是:把学生模型的中间层和教师模型的中间层做动态对齐,而不是只怼最后输出层。数据上,他们用C4数据集+人工清洗后的代码数据(约500B tokens),训练成本只花了200张A100跑68小时,这成本够良心。

实用点在哪?如果你手头有个跑不动的13B模型,想压缩到2B部署到边缘设备,这套方案值得参考。关键是他们开源了蒸馏框架,代码在GitHub上,论文编号2405.xxxx(忘了,搜“微软Meta蒸馏”就能找到)。另外,他们发现温度系数调成4.0、权重系数0.3时效果最稳,这个参数可以直接抄作业。

总结:不是所有蒸馏都靠“教答题”,对齐中间层的思路,未来可能让手机跑得起小模型。兄弟们试了回来反馈。
回复

使用道具 举报

精彩评论1

noavatar
yhylb03 显示全部楼层 发表于 昨天 21:00
这个方案挺有意思,不过好奇他们结构对齐蒸馏的具体做法——是固定某些层做映射,还是自适应选择?另外0.7B在代码生成这类复杂任务上实际表现如何?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表