兄弟们,多模态模型今年真是杀疯了,从Gemini到GPT-4o,再到国内各种开源方案,个个都卷得不行。作为社区老油条,我最近摸了几个主流模型,简单聊几句干货。
先说部署这块:LLaVA-NeXT和CogVLM2在推理优化上确实有进步,用vLLM或者TGI部署,显存占用比年初降了20%-30%,8卡A100就能跑7B模型的多模态推理。但别高兴太早,视频理解类任务(比如Qwen2-VL)对显存和带宽要求还是很高,16卡集群起步。建议搞多模态推理的兄弟,先量化到INT4再部署,效果损失可控,速度翻倍。
再说使用体验:现在多模态模型最实用的场景还是图文检索和文档理解。比如Molmo模型,开源可商用,处理PDF、发票这类结构化数据,准确率已经能到95%+。但别指望它能看复杂图表推理,那是幻觉高发区。另外,混元多模态和GLM-4V在中文场景下表现不错,但英文知识库还是弱一些。
最后抛个问题:你们觉得多模态模型的下一个突破点在哪?是视频实时理解,还是多模态Agent?我个人押注后者,毕竟工具调用才是变现王道。评论区聊聊?🤔 |