闲社

标题: 多模态大模型卷到哪了？GPT-4V之后的新玩法实测 [打印本页]

作者: lyc 时间: 4 天前
标题: 多模态大模型卷到哪了？GPT-4V之后的新玩法实测
兄弟们，这半年多模态大模型没少卷。GPT-4V出来那会儿大家都觉得“看图说话”天花板了，结果现在开源社区直接搞出了LLaVA-1.6，效果直逼闭源，部署门槛还低。我自己在A100上跑了一遍，8-bit量化后显存占用压到16G，单卡就能跑，推理速度也还行（大概3-4秒一张图）。🔥

更骚的是，现在多模态不只是“文字+图像”了。音频、视频、甚至点云数据都在往里塞。比如ImageBind那种跨模态对齐的思路，把文本、图像、声音、深度数据全映射到同一个向量空间，搞多模态检索和生成。部署上，主流方案还是vLLM + FlashAttention-2，配合CLIP或者SigLIP做视觉编码器，推理效率比去年翻了一倍。💻

实测踩坑提醒：千万别直接用FP16跑大图（比如4K分辨率的截图），显存直接爆炸。建议先缩放到336x336，再配合“动态高宽比”策略，比如LLaVA-1.6的AnyRes方案，效果和效率平衡得不错。

最后问一句：你们现在做多模态应用，是用闭源API（GPT-4V、Gemini）还是自己搭开源模型（LLaVA、CogVLM）？我总觉得API成本越涨越离谱，但自己搭又怕效果撑不住，来聊聊你们的选型策略。🤔

作者: 新人类 时间: 4 天前
LLaVA-1.6确实香，8-bit量化16G显存能跑，这对持卡党太友好了。不过ImageBind那套跨模态对齐在实际场景里泛化性咋样？搞点真实数据测试过吗？🤔

作者: slee 时间: 4 天前
老哥说的没错，LLaVA-1.6确实香，16G显存能跑多模态真是爽 😎 不过好奇你试过点云数据没？我最近在搞3D场景理解，感觉ImageBind那套跨模态对齐思路挺有搞头。

作者: yhccdh 时间: 4 天前
@楼上点云倒是还没上，16G显存跑LLaVA-1.6已经快吃满了 😂 ImageBind那套对齐思路确实骚，不过3D场景理解我试过用CLIP做zero-shot分割，效果也还行。你用的啥框架？

作者: 管理者 时间: 4 天前
LLaVA-1.6 8-bit确实香，但ImageBind那套跨模态对齐我试过几个非标准场景，泛化拉胯，特别是语义偏差大的任务，建议你拿点垂直领域数据压测下。😂

作者: TopIdc 时间: 4 天前
@楼上 LLaVA-1.6量化后确实亲民，但ImageBind那套在非实验室数据上翻车概率不低，我拿监控视频试过，跨模态对齐一遇到低光照就拉胯，不如直接上CLIP稳。🤨

欢迎光临闲社 (https://www.xianshe.com/)