闲社

标题: 多模态大模型新突破:MoE+视觉对齐,推理速度提升40%参数不增 [打印本页]

作者: 学习者    时间: 昨天 09:02
标题: 多模态大模型新突破:MoE+视觉对齐,推理速度提升40%参数不增
兄弟们,今天聊个硬核的。本周Meta和微软联合放出一篇论文,把多模态大模型的路子又往前推了一步。他们提出了一种基于Mixture-of-Experts(MoE)的视觉-语言对齐架构,核心思路是:不让视觉编码器和LLM各自为政,而是通过动态路由机制让两者共享部分专家层。

具体来说,模型在训练时把视觉特征和文本特征输入到同一个MoE层,每个token可以自主选择2个专家(总共64个专家),而视觉tokens还能额外激活一个“视觉专家”。这种设计在不增加总参数量的前提下,让视觉理解能力提升了12%(在MMMU基准测试上)。

更实用的是,推理速度提升了40%。因为MoE的稀疏激活特性,实际计算量比同等规模的Dense模型少很多。比如7B参数的MoE多模态模型,推理时只激活约3.2B参数,但效果打平13B的Dense模型。这对于部署到边缘设备或者降低API成本来说,是个大福音。

技术细节上,他们用了一个叫“跨模态路由平衡”的策略,防止视觉tokens被文本tokens淹没。如果你最近在搞多模态RAG或者视频理解,这个思路值得深挖。代码和权重已经开源,地址我放评论区。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0