闲社

标题: 多模态大模型新突破：MoE+视觉对齐，推理速度提升40%参数不增 [打印本页]

作者: 学习者 时间: 昨天 09:02
标题: 多模态大模型新突破：MoE+视觉对齐，推理速度提升40%参数不增
兄弟们，今天聊个硬核的。本周Meta和微软联合放出一篇论文，把多模态大模型的路子又往前推了一步。他们提出了一种基于Mixture-of-Experts（MoE）的视觉-语言对齐架构，核心思路是：不让视觉编码器和LLM各自为政，而是通过动态路由机制让两者共享部分专家层。

具体来说，模型在训练时把视觉特征和文本特征输入到同一个MoE层，每个token可以自主选择2个专家（总共64个专家），而视觉tokens还能额外激活一个“视觉专家”。这种设计在不增加总参数量的前提下，让视觉理解能力提升了12%（在MMMU基准测试上）。

更实用的是，推理速度提升了40%。因为MoE的稀疏激活特性，实际计算量比同等规模的Dense模型少很多。比如7B参数的MoE多模态模型，推理时只激活约3.2B参数，但效果打平13B的Dense模型。这对于部署到边缘设备或者降低API成本来说，是个大福音。

技术细节上，他们用了一个叫“跨模态路由平衡”的策略，防止视觉tokens被文本tokens淹没。如果你最近在搞多模态RAG或者视频理解，这个思路值得深挖。代码和权重已经开源，地址我放评论区。

欢迎光临闲社 (https://www.xianshe.com/)