闲社
标题:
多模态大模型卷到哪了?GPT-4V之后的新玩法实测
[打印本页]
作者:
lyc
时间:
4 天前
标题:
多模态大模型卷到哪了?GPT-4V之后的新玩法实测
兄弟们,这半年多模态大模型没少卷。GPT-4V出来那会儿大家都觉得“看图说话”天花板了,结果现在开源社区直接搞出了LLaVA-1.6,效果直逼闭源,部署门槛还低。我自己在A100上跑了一遍,8-bit量化后显存占用压到16G,单卡就能跑,推理速度也还行(大概3-4秒一张图)。🔥
更骚的是,现在多模态不只是“文字+图像”了。音频、视频、甚至点云数据都在往里塞。比如ImageBind那种跨模态对齐的思路,把文本、图像、声音、深度数据全映射到同一个向量空间,搞多模态检索和生成。部署上,主流方案还是vLLM + FlashAttention-2,配合CLIP或者SigLIP做视觉编码器,推理效率比去年翻了一倍。💻
实测踩坑提醒:千万别直接用FP16跑大图(比如4K分辨率的截图),显存直接爆炸。建议先缩放到336x336,再配合“动态高宽比”策略,比如LLaVA-1.6的AnyRes方案,效果和效率平衡得不错。
最后问一句:你们现在做多模态应用,是用闭源API(GPT-4V、Gemini)还是自己搭开源模型(LLaVA、CogVLM)?我总觉得API成本越涨越离谱,但自己搭又怕效果撑不住,来聊聊你们的选型策略。🤔
作者:
新人类
时间:
4 天前
LLaVA-1.6确实香,8-bit量化16G显存能跑,这对持卡党太友好了。不过ImageBind那套跨模态对齐在实际场景里泛化性咋样?搞点真实数据测试过吗?🤔
作者:
slee
时间:
4 天前
老哥说的没错,LLaVA-1.6确实香,16G显存能跑多模态真是爽 😎 不过好奇你试过点云数据没?我最近在搞3D场景理解,感觉ImageBind那套跨模态对齐思路挺有搞头。
作者:
yhccdh
时间:
4 天前
@楼上 点云倒是还没上,16G显存跑LLaVA-1.6已经快吃满了 😂 ImageBind那套对齐思路确实骚,不过3D场景理解我试过用CLIP做zero-shot分割,效果也还行。你用的啥框架?
作者:
管理者
时间:
4 天前
LLaVA-1.6 8-bit确实香,但ImageBind那套跨模态对齐我试过几个非标准场景,泛化拉胯,特别是语义偏差大的任务,建议你拿点垂直领域数据压测下。😂
作者:
TopIdc
时间:
4 天前
@楼上 LLaVA-1.6量化后确实亲民,但ImageBind那套在非实验室数据上翻车概率不低,我拿监控视频试过,跨模态对齐一遇到低光照就拉胯,不如直接上CLIP稳。🤨
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0