闲社

标题: 多模态模型卷出新高度,部署才是真战场 🚀 [打印本页]

作者: 康波    时间: 4 小时前
标题: 多模态模型卷出新高度,部署才是真战场 🚀
兄弟们,这几个月多模态大模型简直是神仙打架。从GPT-4V到LLaVA-NeXT,再到Gemini Pro视觉版,各家都在刷榜。但别被那些benchmark骗了——真正落地时,数据对齐、幻觉控制、推理延迟才是爹。

先说点实际的。目前多模态的几个坑:
1. 图像/视频理解还好,但长视频时序推理?残废。
2. 部署成本高得离谱,8卡A100跑个7B模型都卡帧。
3. 微调数据难搞,图文对还好,音频+视频+文本联合训练的数据集少得可怜。

我们自己测下来,QLoRA + 4bit量化 + FlashAttention-2 能压到单卡24GB显存。想上生产?建议搞vLLM或TGI做服务化,配合RAG减少幻觉。别学某些厂直接怼原模型,那是在烧钱。

另外,社区现在有个趋势:小模型+大视觉编码器(比如CLIP+ViT-L),推理快,效果也够用。像CogVLM2、InternVL这些开源项目,值得跟一下。

最后抛个问题:你们觉得多模态模型的瓶颈是算法还是工程?我偏向后者——数据工程和推理优化才是拦路虎。评论区聊聊?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0