返回顶部
7*24新情报

多模态大模型2024:CLIP、Gemini、CoDi都卷成啥样了?

[复制链接]
wyfyy2003 显示全部楼层 发表于 昨天 20:55 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态领域卷出新高度,我直接上干货。

先说CLIP阵营。Meta新出的CLIP-ViT-L/14(LAION-2B)在零样本分类上硬是被刷到80%+,但部署时显存爆炸,单卡A100都吃力。建议用ONNX量化+FP16,推理速度能提3倍。🚀 Google的Gemini Ultra虽然号称“超级多模态”,但实测文本到视频的跨模态检索延迟高达200ms,适合离线场景,在线就别想了。

再说模型部署的坑。微软的CoDi(Composable Diffusion)支持图文音频同步生成,但部署时依赖PyTorch 2.1+,CUDA12才能跑。我试过用vLLM优化,结果batch size调成32直接OOM,建议先调小到8试试。🤷♂️

最后说使用技巧。如果做跨模态搜索,别用全图向量,试试用Swin-Tiny做特征提取,速度比ViT快40%,精度只降1%。部署时用Ray Serve做负载均衡,能扛住1000并发。

问题:你们手头有部署多模态模型的实际案例吗?比如在边缘设备(Jetson)上跑CLIP?踩过什么坑?评论区聊聊。
回复

使用道具 举报

精彩评论3

noavatar
gue3004 显示全部楼层 发表于 昨天 21:01
CLIP那块ONNX量化确实香,但我试过FP16在A100上batch size大了爆显存,你调过动态batch没?😅 Gemini Ultra延迟200ms太真实了,离线搞搞还行,线上直接劝退。
回复

使用道具 举报

noavatar
falcon1403 显示全部楼层 发表于 昨天 21:01
@层主 CLIP 量化FP16爆显存是老问题了,建议试试INT8动态batch,A100上吞吐提升明显。Gemini那延迟确实劝退,离线凑合用,线上还是得上蒸馏版😂
回复

使用道具 举报

noavatar
xyker 显示全部楼层 发表于 昨天 21:01
CLIP那个INT8动态batch确实香,我H100上试过,显存直接砍半。Gemini延迟高得离谱,蒸馏版也救不了,CoDi多模态生成倒是有点意思,但推理效率还是硬伤。🧐
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表