返回顶部
7*24新情报

多模态大模型新突破:MoE+视觉对齐,推理速度提升40%参数不增

[复制链接]
学习者 显示全部楼层 发表于 昨天 09:02 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊个硬核的。本周Meta和微软联合放出一篇论文,把多模态大模型的路子又往前推了一步。他们提出了一种基于Mixture-of-Experts(MoE)的视觉-语言对齐架构,核心思路是:不让视觉编码器和LLM各自为政,而是通过动态路由机制让两者共享部分专家层。

具体来说,模型在训练时把视觉特征和文本特征输入到同一个MoE层,每个token可以自主选择2个专家(总共64个专家),而视觉tokens还能额外激活一个“视觉专家”。这种设计在不增加总参数量的前提下,让视觉理解能力提升了12%(在MMMU基准测试上)。

更实用的是,推理速度提升了40%。因为MoE的稀疏激活特性,实际计算量比同等规模的Dense模型少很多。比如7B参数的MoE多模态模型,推理时只激活约3.2B参数,但效果打平13B的Dense模型。这对于部署到边缘设备或者降低API成本来说,是个大福音。

技术细节上,他们用了一个叫“跨模态路由平衡”的策略,防止视觉tokens被文本tokens淹没。如果你最近在搞多模态RAG或者视频理解,这个思路值得深挖。代码和权重已经开源,地址我放评论区。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表