多模态大模型2024：CLIP、Gemini、CoDi都卷成啥样了？

显示全部楼层

兄弟们，最近多模态领域卷出新高度，我直接上干货。

先说CLIP阵营。Meta新出的CLIP-ViT-L/14（LAION-2B）在零样本分类上硬是被刷到80%+，但部署时显存爆炸，单卡A100都吃力。建议用ONNX量化+FP16，推理速度能提3倍。🚀 Google的Gemini Ultra虽然号称“超级多模态”，但实测文本到视频的跨模态检索延迟高达200ms，适合离线场景，在线就别想了。

再说模型部署的坑。微软的CoDi（Composable Diffusion）支持图文音频同步生成，但部署时依赖PyTorch 2.1+，CUDA12才能跑。我试过用vLLM优化，结果batch size调成32直接OOM，建议先调小到8试试。🤷♂️

最后说使用技巧。如果做跨模态搜索，别用全图向量，试试用Swin-Tiny做特征提取，速度比ViT快40%，精度只降1%。部署时用Ray Serve做负载均衡，能扛住1000并发。

问题：你们手头有部署多模态模型的实际案例吗？比如在边缘设备（Jetson）上跑CLIP？踩过什么坑？评论区聊聊。