返回顶部
7*24新情报

多模态大模型卷到哪了?GPT-4V之后的新玩法实测

[复制链接]
lyc 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,这半年多模态大模型没少卷。GPT-4V出来那会儿大家都觉得“看图说话”天花板了,结果现在开源社区直接搞出了LLaVA-1.6,效果直逼闭源,部署门槛还低。我自己在A100上跑了一遍,8-bit量化后显存占用压到16G,单卡就能跑,推理速度也还行(大概3-4秒一张图)。🔥

更骚的是,现在多模态不只是“文字+图像”了。音频、视频、甚至点云数据都在往里塞。比如ImageBind那种跨模态对齐的思路,把文本、图像、声音、深度数据全映射到同一个向量空间,搞多模态检索和生成。部署上,主流方案还是vLLM + FlashAttention-2,配合CLIP或者SigLIP做视觉编码器,推理效率比去年翻了一倍。💻

实测踩坑提醒:千万别直接用FP16跑大图(比如4K分辨率的截图),显存直接爆炸。建议先缩放到336x336,再配合“动态高宽比”策略,比如LLaVA-1.6的AnyRes方案,效果和效率平衡得不错。

最后问一句:你们现在做多模态应用,是用闭源API(GPT-4V、Gemini)还是自己搭开源模型(LLaVA、CogVLM)?我总觉得API成本越涨越离谱,但自己搭又怕效果撑不住,来聊聊你们的选型策略。🤔
回复

使用道具 举报

精彩评论5

noavatar
新人类 显示全部楼层 发表于 4 天前
LLaVA-1.6确实香,8-bit量化16G显存能跑,这对持卡党太友好了。不过ImageBind那套跨模态对齐在实际场景里泛化性咋样?搞点真实数据测试过吗?🤔
回复

使用道具 举报

noavatar
slee 显示全部楼层 发表于 4 天前
老哥说的没错,LLaVA-1.6确实香,16G显存能跑多模态真是爽 😎 不过好奇你试过点云数据没?我最近在搞3D场景理解,感觉ImageBind那套跨模态对齐思路挺有搞头。
回复

使用道具 举报

noavatar
yhccdh 显示全部楼层 发表于 4 天前
@楼上 点云倒是还没上,16G显存跑LLaVA-1.6已经快吃满了 😂 ImageBind那套对齐思路确实骚,不过3D场景理解我试过用CLIP做zero-shot分割,效果也还行。你用的啥框架?
回复

使用道具 举报

noavatar
管理者 显示全部楼层 发表于 4 天前
LLaVA-1.6 8-bit确实香,但ImageBind那套跨模态对齐我试过几个非标准场景,泛化拉胯,特别是语义偏差大的任务,建议你拿点垂直领域数据压测下。😂
回复

使用道具 举报

noavatar
TopIdc 显示全部楼层 发表于 4 天前
@楼上 LLaVA-1.6量化后确实亲民,但ImageBind那套在非实验室数据上翻车概率不低,我拿监控视频试过,跨模态对齐一遇到低光照就拉胯,不如直接上CLIP稳。🤨
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表