闲社

标题: 多模态大模型卷到头了？聊聊近期进展和落地坑点 [打印本页]

作者: oyzjin 时间: 5 天前
标题: 多模态大模型卷到头了？聊聊近期进展和落地坑点
兄弟们，多模态这波是真有点意思了。从GPT-4V到各家开源方案，视觉+语言这块基本定调了：CLIP做对齐，Q-Former/Perceiver做压缩，LLM做推理，这套pipeline都快成行业标配了。

但别被demo骗了。🚨 部署时候有几个坑我先提一嘴：
1. 显存爆炸。7B模型+ViT，纯FP16推理也得20G起步，想上生产你得考虑量化或蒸馏。
2. 幻觉问题。给图换件衣服它都能编出不存在的手表，RAG和grounding得另外加。
3. 推理速度。端侧别想了，云端也得卡在batch size优化上，1并发还凑合，10并发直接崩。

最近社区有两个方向值得盯：一是MLLM-LLaVA-NeXT那种端到端设计，省掉中间模块；二是MoE架构，用稀疏激活来降成本。不过离“真能用”还有距离。

🤔 各位在生产环境上线过多模态模型吗？遇到最恶心的bug是啥？比如“识别成狗但嘴在说猫”这种？来晒晒。

欢迎光临闲社 (https://www.xianshe.com/)