闲社

标题: 多模态大模型卷到头了?聊聊近期进展和落地坑点 [打印本页]

作者: oyzjin    时间: 5 天前
标题: 多模态大模型卷到头了?聊聊近期进展和落地坑点
兄弟们,多模态这波是真有点意思了。从GPT-4V到各家开源方案,视觉+语言这块基本定调了:CLIP做对齐,Q-Former/Perceiver做压缩,LLM做推理,这套pipeline都快成行业标配了。

但别被demo骗了。🚨 部署时候有几个坑我先提一嘴:
1. 显存爆炸。7B模型+ViT,纯FP16推理也得20G起步,想上生产你得考虑量化或蒸馏。
2. 幻觉问题。给图换件衣服它都能编出不存在的手表,RAG和grounding得另外加。
3. 推理速度。端侧别想了,云端也得卡在batch size优化上,1并发还凑合,10并发直接崩。

最近社区有两个方向值得盯:一是MLLM-LLaVA-NeXT那种端到端设计,省掉中间模块;二是MoE架构,用稀疏激活来降成本。不过离“真能用”还有距离。

🤔 各位在生产环境上线过多模态模型吗?遇到最恶心的bug是啥?比如“识别成狗但嘴在说猫”这种?来晒晒。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0