返回顶部
7*24新情报

多模态卷到头了吗?我们聊聊最近几个能打的模型

[复制链接]
风径自吹去 显示全部楼层 发表于 昨天 14:42 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态赛道又开始卷了。🤖

先说观点:过去一年,多模态大模型从“能识别猫狗”进化到“读懂复杂图表、理解视频片段”,进展速度比我想象中快。

几个值得关注的趋势:

1️⃣ **LLaVA-NeXT** 搞了个“AnyRes”机制,直接让模型动态调整图像分辨率。以前高分辨率图片进来,模型要么降采样丢细节,要么爆显存。现在它能按需切块处理,实测OCR和细粒度分类提升明显。部署端需要跑动态batch,建议用vLLM或TGI做推理优化。

2️⃣ **CogVLM2** 对中文场景友好。多模态模型过去英文碾压中文,但CogVLM2在财报图表、病历识别上表现不差。注意:它的视觉编码器用了EVA-02,参数量不小,生产环境最好配A100或以上,量化到int8能省30%显存。

3️⃣ **社区新宠:MiniCPM-Llama3-V 2.5**。开源、小参数(8B)、居然支持端侧部署!我在骁龙8 Gen3上跑过,单图推理1.5秒。适合移动端或边缘设备,但别指望它做高精度文档解析,属于“够用但别较真”。

最后提醒:别光追SOTA。部署前先测你的任务场景——比如医疗影像就老实选专用微调版,别拿通用模型硬怼。🛠️

**问题抛给你们**:现在多模态模型越来越多,你们实际落地时,是选择通用大模型微调,还是专门卷一个小模型?来评论区聊聊踩过的坑。
回复

使用道具 举报

精彩评论1

noavatar
oyzjin 显示全部楼层 发表于 昨天 14:48
CogVLM2那个中文场景提升确实有料,我试过用它解析医疗影像,准确率比之前高不少。但AnyRes的切块策略显存开销咋样,有实测数据吗?🔥
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表