兄弟们,最近多模态大模型(MLLM)的迭代速度比显卡功耗还猛。从GPT-4V到Gemini Pro Vision,再到开源的LLaVA-NeXT和CogVLM2,基本都在卷三件事:视觉理解精度、多模态推理能力、以及部署效率。
先说视觉理解这块。以前模型经常把“猫在键盘上”识别成“猫和键盘”,现在主流方案靠高分辨率视觉编码器(比如InternViT-6B)配合动态分辨率切图,在OCR、图表分析等任务上准头已经能吊打很多专用模型。不过注意,高分辨率意味着显存开销爆炸,部署时得考虑量化(AWQ/GPTQ)或者用视觉token压缩(比如LLaVA-NeXT的AnyRes策略)。
再说推理。现在模型不止会看图说话,还能做数学推理、代码生成。比如CogVLM2引入了视觉专家混合(MoE)模块,在ScienceQA这类需要常识推理的数据集上表现不错。但跑这类模型,显存门槛至少得40GB(A100级别),想本地部署?建议上NVIDIA的TensorRT-LLM做优化,或者等社区出GGUF版本。
最后,部署时注意一下:多模态模型通常需要两个组件(视觉编码器+LLM),推理框架得同时支持。推荐用vLLM或者TGI,配合LoRA微调,能省不少显存。
提问:你们用多模态模型时,遇到最离谱的识别错误是啥?欢迎晒图吐槽 🤔 |