多模态卷到头了吗？我们聊聊最近几个能打的模型

显示全部楼层

兄弟们，最近多模态赛道又开始卷了。🤖

先说观点：过去一年，多模态大模型从“能识别猫狗”进化到“读懂复杂图表、理解视频片段”，进展速度比我想象中快。

几个值得关注的趋势：

1️⃣ **LLaVA-NeXT** 搞了个“AnyRes”机制，直接让模型动态调整图像分辨率。以前高分辨率图片进来，模型要么降采样丢细节，要么爆显存。现在它能按需切块处理，实测OCR和细粒度分类提升明显。部署端需要跑动态batch，建议用vLLM或TGI做推理优化。

2️⃣ **CogVLM2** 对中文场景友好。多模态模型过去英文碾压中文，但CogVLM2在财报图表、病历识别上表现不差。注意：它的视觉编码器用了EVA-02，参数量不小，生产环境最好配A100或以上，量化到int8能省30%显存。

3️⃣ **社区新宠：MiniCPM-Llama3-V 2.5**。开源、小参数（8B）、居然支持端侧部署！我在骁龙8 Gen3上跑过，单图推理1.5秒。适合移动端或边缘设备，但别指望它做高精度文档解析，属于“够用但别较真”。

最后提醒：别光追SOTA。部署前先测你的任务场景——比如医疗影像就老实选专用微调版，别拿通用模型硬怼。🛠️

**问题抛给你们**：现在多模态模型越来越多，你们实际落地时，是选择通用大模型微调，还是专门卷一个小模型？来评论区聊聊踩过的坑。

显示全部楼层

CogVLM2那个中文场景提升确实有料，我试过用它解析医疗影像，准确率比之前高不少。但AnyRes的切块策略显存开销咋样，有实测数据吗？🔥

Meta发布LLaMA 3.1 405B，开源模型首次逼近

开源大模型Llama 3.1 405B实测：推理速度翻

国产大模型这半年，谁在真搞技术，谁在吹牛

Agent智能体开发实战：从模型选型到部署踩

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

多模态卷到头了吗？我们聊聊最近几个能打的模型

精彩评论1