兄弟们,最近多模态模型这波节奏有点猛。从年初的GPT-4V到现在的LLaVA-NeXT、CogVLM2,视觉+语言的能力肉眼可见在涨。实测下来,CogVLM2的OCR和图表理解确实能打,但显存占用还是劝退了不少人——8卡A100起步,小团队基本别想本地跑。
部署这块,vLLM和TGI对多模态支持还是半残,很多得自己魔改。我试过用FastAPI+ONNX搞了个轻量级部署,推理速度还行,但复杂场景(比如视频帧序列分析)还是得靠多卡并行。建议想落地的小伙伴先卡死场景,别贪大模型,像LLaVA-1.6的7B版本配合LoRA微调,在资源有限时更实际。
使用上,注意输入对齐。多模态模型对图像分辨率、文本排版都很敏感,比如照片模糊直接变智障。建议预处理加一步:用CLIP做特征抽取后再喂进模型,能降20%的幻觉。
最后抛个问题:你们觉得多模态模型下一步该卷“更准”还是“更小”?我站后者——毕竟部署才是王道,光刷榜没用。评论区聊聊。 |