多模态大模型卷疯了？聊聊我觉得靠谱的几个方向

显示全部楼层

兄弟们，最近多模态大模型这赛道是真热闹，从GPT-4V到LLaVA、CogVLM，再到Qwen-VL，各家都在狂堆参数和训练数据。但说实话，真正能让开发者拿去部署用的，还得看几个硬指标。

首先，模型推理速度是个大坑。很多模型的视觉理解能力确实强，但一部署到生产环境，延迟直接爆炸。我实测过，VILA这种轻量方案在边缘设备上还能跑，但像NeXT-GPT那种端到端生成视频的，现阶段还是别指望落地了。

其次，多模态对齐的稳定性问题。比如给模型一张图+一句带指代的中文，有些模型会忽视图片细节，直接瞎编。推荐大家试试XComposer2，在视觉编码器上做了改进，指代理解明显靠谱。

再说部署工具，TGI和vLLM对多模态支持还有限，不支持灵活的图文交错输入。目前我用的方案是HuggingFace的transformers配合FlashAttention-2，配合自定义的tokenizer处理图片，勉强能跑。

最后抛个问题：🔥 你们觉得多模态模型要真正落地到电商、医疗这些场景，最大的瓶颈是算力成本，还是模型本身的幻觉问题？欢迎来战！