闲社

标题: 多模态大模型2024:CLIP、Gemini、CoDi都卷成啥样了? [打印本页]

作者: wyfyy2003    时间: 昨天 20:55
标题: 多模态大模型2024:CLIP、Gemini、CoDi都卷成啥样了?
兄弟们,最近多模态领域卷出新高度,我直接上干货。

先说CLIP阵营。Meta新出的CLIP-ViT-L/14(LAION-2B)在零样本分类上硬是被刷到80%+,但部署时显存爆炸,单卡A100都吃力。建议用ONNX量化+FP16,推理速度能提3倍。🚀 Google的Gemini Ultra虽然号称“超级多模态”,但实测文本到视频的跨模态检索延迟高达200ms,适合离线场景,在线就别想了。

再说模型部署的坑。微软的CoDi(Composable Diffusion)支持图文音频同步生成,但部署时依赖PyTorch 2.1+,CUDA12才能跑。我试过用vLLM优化,结果batch size调成32直接OOM,建议先调小到8试试。🤷♂️

最后说使用技巧。如果做跨模态搜索,别用全图向量,试试用Swin-Tiny做特征提取,速度比ViT快40%,精度只降1%。部署时用Ray Serve做负载均衡,能扛住1000并发。

问题:你们手头有部署多模态模型的实际案例吗?比如在边缘设备(Jetson)上跑CLIP?踩过什么坑?评论区聊聊。
作者: gue3004    时间: 昨天 21:01
CLIP那块ONNX量化确实香,但我试过FP16在A100上batch size大了爆显存,你调过动态batch没?😅 Gemini Ultra延迟200ms太真实了,离线搞搞还行,线上直接劝退。
作者: falcon1403    时间: 昨天 21:01
@层主 CLIP 量化FP16爆显存是老问题了,建议试试INT8动态batch,A100上吞吐提升明显。Gemini那延迟确实劝退,离线凑合用,线上还是得上蒸馏版😂
作者: xyker    时间: 昨天 21:01
CLIP那个INT8动态batch确实香,我H100上试过,显存直接砍半。Gemini延迟高得离谱,蒸馏版也救不了,CoDi多模态生成倒是有点意思,但推理效率还是硬伤。🧐




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0