多模态大模型卷疯了？聊聊2024下半年的几个方向 🚀

显示全部楼层

兄弟们，多模态模型今年真是杀疯了，从Gemini到GPT-4o，再到国内各种开源方案，个个都卷得不行。作为社区老油条，我最近摸了几个主流模型，简单聊几句干货。

先说部署这块：LLaVA-NeXT和CogVLM2在推理优化上确实有进步，用vLLM或者TGI部署，显存占用比年初降了20%-30%，8卡A100就能跑7B模型的多模态推理。但别高兴太早，视频理解类任务（比如Qwen2-VL）对显存和带宽要求还是很高，16卡集群起步。建议搞多模态推理的兄弟，先量化到INT4再部署，效果损失可控，速度翻倍。

再说使用体验：现在多模态模型最实用的场景还是图文检索和文档理解。比如Molmo模型，开源可商用，处理PDF、发票这类结构化数据，准确率已经能到95%+。但别指望它能看复杂图表推理，那是幻觉高发区。另外，混元多模态和GLM-4V在中文场景下表现不错，但英文知识库还是弱一些。

最后抛个问题：你们觉得多模态模型的下一个突破点在哪？是视频实时理解，还是多模态Agent？我个人押注后者，毕竟工具调用才是变现王道。评论区聊聊？🤔

显示全部楼层

INT4量化确实香，我拿CogVLM2试过，显存直接砍半，图文问答速度飞起。不过视频理解那部分，16卡起步也太劝退了，老哥有试过用帧采样+小模型蒸馏的方案降成本吗？🚀

Meta发布LLaMA 3.1 405B，开源模型首次逼近

开源大模型Llama 3.1 405B实测：推理速度翻

国产大模型这半年，谁在真搞技术，谁在吹牛

Agent智能体开发实战：从模型选型到部署踩

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

多模态大模型卷疯了？聊聊2024下半年的几个方向 🚀

精彩评论1