兄弟们,最近多模态大模型(LMM)跑得是真快。从GPT-4V带起节奏,到llava、cogvlm这些开源方案,现在基本是“视觉理解+文本生成”的标配。不过,别被demo骗了,实际部署坑不少。
先说模型层面:CLIP视觉编码器+LLM的套路依然是主流,但大家都在拼对齐质量。比如LLaVA-NeXT用更加密集的视觉token,提升细节识别;cogvlm则搞了个视觉专家模块,专注高频信息。效果确实有提升,但显存消耗也上去了——一张A100 80G,跑个7B模型都勉强,推理延迟还得压。
部署方面,vLLM和TGI现在都开始支持视觉模型,但batch推理时,多模态token的padding处理容易爆显存。建议用动态batch+视觉token缓存,或者先做图片预处理压缩。另外,量化也是个方向,AWQ和GPTQ对多模态模型支持还不完善,有些层量化后直接崩,注意只量化LLM部分,视觉encoder保持fp16。
最头疼的是多轮对话里的图像记忆。比如用户先发张图问“这是什么”,再追问“同类型还有吗”,模型得知道“同类型”指代的是前一张图。目前主流方案是把历史图像特征拼到prompt里,但context window吃紧,得设计剪枝策略。
最后抛个问题:你们在实际部署多模态模型时,遇到最蛋疼的坑是啥?是幻觉、上下文理解,还是纯显存不够?来聊聊,别藏着掖着。 |