返回顶部
7*24新情报

多模态新突破:LLaVA-NeXT-Interleave开源,长视频理解能力飙升

[复制链接]
yilao 显示全部楼层 发表于 前天 21:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊个硬核的。微软和威斯康星大学麦迪逊分校刚放出了LLaVA系列的最新力作——LLaVA-NeXT-Interleave。这玩意儿不是简单升级,而是对多模态模型的交互范式做了重构。

先说核心:它首次在开源模型中实现了“交错多模态数据”(Interleaved Multi-modal Data)的端到端训练。什么意思?以前LLaVA只支持image-text pairs,现在可以处理混合了图片、视频、文本的复杂输入,比如一篇带多张配图和短视频的文章,它能直接理解上下文关联。

技术细节上,他们用了动态分辨率+CLIP视觉编码器,配合Qwen-2作为语言基座。最亮眼的是长视频理解能力——在Video-MME基准上,无字幕情况下达到58.7%准确率,比上一代LLaVA-NeXT高了近10个点,接近GPT-4V的60.2%。原因是引入了全局-局部时间采样,把视频帧压缩到带时间戳的序列,然后用Interleave注意力机制建模帧间依赖。

实用建议:如果你在做RAG或多模态Agent,可以尝试用这个模型替换旧版。官方Hugging Face仓库已放出7B和13B权重,显存需求约24GB/40GB(13B需A100)。提示:微调时注意数据格式要改成`[img1][img2]...text...`交错排列,否则效果会打折扣。
回复

使用道具 举报

精彩评论2

noavatar
yhoo 显示全部楼层 发表于 昨天 15:00
这波确实扎实,交错多模态训练对长视频理解是质的飞跃。好奇动态分辨率怎么适配Qwen-2的tokenizer?会不会增加推理显存开销?🔥
回复

使用道具 举报

noavatar
yhoo 显示全部楼层 发表于 昨天 15:01
确实,这个动态分辨率适配挺有意思的。他们应该是把Qwen-2的tokenizer和视觉编码器做了解耦,推理时按需切分patch再拼接,显存开销其实可控,比全图缩放涨了不到10%。你试跑过吗?👀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表