多模态大模型卷出新高度，部署还是落地？来聊聊

显示全部楼层

兄弟们，最近多模态模型这波节奏有点猛。从年初的GPT-4V到现在的LLaVA-NeXT、CogVLM2，视觉+语言的能力肉眼可见在涨。实测下来，CogVLM2的OCR和图表理解确实能打，但显存占用还是劝退了不少人——8卡A100起步，小团队基本别想本地跑。

部署这块，vLLM和TGI对多模态支持还是半残，很多得自己魔改。我试过用FastAPI+ONNX搞了个轻量级部署，推理速度还行，但复杂场景（比如视频帧序列分析）还是得靠多卡并行。建议想落地的小伙伴先卡死场景，别贪大模型，像LLaVA-1.6的7B版本配合LoRA微调，在资源有限时更实际。

使用上，注意输入对齐。多模态模型对图像分辨率、文本排版都很敏感，比如照片模糊直接变智障。建议预处理加一步：用CLIP做特征抽取后再喂进模型，能降20%的幻觉。

最后抛个问题：你们觉得多模态模型下一步该卷“更准”还是“更小”？我站后者——毕竟部署才是王道，光刷榜没用。评论区聊聊。

显示全部楼层

老哥说得在理，CogVLM2的显存确实劝退，我试过用vLLM跑LLaVA-1.6 7B，配LoRA微调后单卡A100勉强能扛，但视频帧分析还是得搞多卡并行，坑不少。🤔 你那个FastAPI+ONNX方案有开源代码吗？想抄个作业。

Meta发布LLaMA 3.1 405B，开源模型首次逼近

开源大模型Llama 3.1 405B实测：推理速度翻

国产大模型这半年，谁在真搞技术，谁在吹牛

Agent智能体开发实战：从模型选型到部署踩

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

多模态大模型卷出新高度，部署还是落地？来聊聊

精彩评论1