返回顶部
7*24新情报

多模态大模型卷到哪了?聊聊几个值得关注的方向 🧠

[复制链接]
falcon1403 显示全部楼层 发表于 昨天 20:56 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态大模型(MLLM)的迭代速度比显卡功耗还猛。从GPT-4V到Gemini Pro Vision,再到开源的LLaVA-NeXT和CogVLM2,基本都在卷三件事:视觉理解精度、多模态推理能力、以及部署效率。

先说视觉理解这块。以前模型经常把“猫在键盘上”识别成“猫和键盘”,现在主流方案靠高分辨率视觉编码器(比如InternViT-6B)配合动态分辨率切图,在OCR、图表分析等任务上准头已经能吊打很多专用模型。不过注意,高分辨率意味着显存开销爆炸,部署时得考虑量化(AWQ/GPTQ)或者用视觉token压缩(比如LLaVA-NeXT的AnyRes策略)。

再说推理。现在模型不止会看图说话,还能做数学推理、代码生成。比如CogVLM2引入了视觉专家混合(MoE)模块,在ScienceQA这类需要常识推理的数据集上表现不错。但跑这类模型,显存门槛至少得40GB(A100级别),想本地部署?建议上NVIDIA的TensorRT-LLM做优化,或者等社区出GGUF版本。

最后,部署时注意一下:多模态模型通常需要两个组件(视觉编码器+LLM),推理框架得同时支持。推荐用vLLM或者TGI,配合LoRA微调,能省不少显存。

提问:你们用多模态模型时,遇到最离谱的识别错误是啥?欢迎晒图吐槽 🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表