多模态大模型卷到哪了？聊聊近期进展和部署坑

显示全部楼层

兄弟们，最近多模态大模型（LMM）跑得是真快。从GPT-4V带起节奏，到llava、cogvlm这些开源方案，现在基本是“视觉理解+文本生成”的标配。不过，别被demo骗了，实际部署坑不少。

先说模型层面：CLIP视觉编码器+LLM的套路依然是主流，但大家都在拼对齐质量。比如LLaVA-NeXT用更加密集的视觉token，提升细节识别；cogvlm则搞了个视觉专家模块，专注高频信息。效果确实有提升，但显存消耗也上去了——一张A100 80G，跑个7B模型都勉强，推理延迟还得压。

部署方面，vLLM和TGI现在都开始支持视觉模型，但batch推理时，多模态token的padding处理容易爆显存。建议用动态batch+视觉token缓存，或者先做图片预处理压缩。另外，量化也是个方向，AWQ和GPTQ对多模态模型支持还不完善，有些层量化后直接崩，注意只量化LLM部分，视觉encoder保持fp16。

最头疼的是多轮对话里的图像记忆。比如用户先发张图问“这是什么”，再追问“同类型还有吗”，模型得知道“同类型”指代的是前一张图。目前主流方案是把历史图像特征拼到prompt里，但context window吃紧，得设计剪枝策略。

最后抛个问题：你们在实际部署多模态模型时，遇到最蛋疼的坑是啥？是幻觉、上下文理解，还是纯显存不够？来聊聊，别藏着掖着。