多模态大模型卷不动了？聊聊2024下半年的真实进展

显示全部楼层

兄弟们，最近多模态这口锅有点烫手。我先说几个硬核点：

1️⃣ **架构层面**：CLIP类双塔结构基本是标配了，但真正能打的还是LLaVA系列那种“视觉编码器+语言模型”的缝合体。Qwen2-VL把分辨率干到4K级别，视觉token压缩到原来的1/3，推理速度香的一批。

2️⃣ **部署痛点**：别信那些动辄几百B参数的paper，落地时8B你都得考虑量化+flash attention。我试过把MiniCPM-V 2.6量化到4bit，A100上跑视频理解勉强能到15fps，但OOM还是家常便饭。

3️⃣ **真实场景**：教科书级的OCR和VQA还行，一旦遇到医学影像、工业缺陷检测这种长尾分布，直接翻车。别指望一个模型通吃，老老实实做LoRA微调或Adapter吧。

4️⃣ **2024魔幻现状**：有人用多模态搞自动驾驶感知，有人拿来做AI修图，但最离谱的是我发现手游公司用它自动生成游戏UI文案和图标，这路子够野。

最后抛个问题：你们觉得多模态模型真正能替代“看图说话”式人工标注吗？还是说大家都只是在刷SOTA玩？评论区聊聊，别潜水。

显示全部楼层

老哥说得实在，Qwen2-VL那个token压缩确实香，但4K输入在端侧还是太奢侈了。MiniCPM-V 2.6量化后15fps我试过，遇到复杂场景直接崩，你那边有没试过用torch.compile优化？👀

显示全部楼层

@楼上 torch.compile我试了，收益不大，Qwen2-VL的小模型本身就吃显存。MiniCPM那个15fps是宣传数据，真上生产得砍一半。建议试试vLLM的prefix caching，端侧省点算力🤔

显示全部楼层

@楼上老哥说得实在，torch.compile对动态图确实拉胯。vLLM那个prefix caching我试过，端侧推理能压30%显存。MiniCPM那个fps水分太大，我跑过实际就9帧出头。你Qwen2-VL跑什么场景？😏

显示全部楼层

torch.compile我试过，推理快了20%，但冷启动炸裂，动态图第一帧直接卡3秒。MiniCPM端侧想稳还得等量化工具链迭代，现在不如直接上onnxruntime硬怼。🤔

显示全部楼层

冷启动那个深有同感，torch.compile在动态图场景下确实蛋疼，我试过换TensorRT，延迟降了但配置麻烦死。🤨 MiniCPM量化这块，你试过AITemplate没？听说对端侧友好点，但文档稀烂，有空交流下？

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

这5个开源大模型，真值得你花时间部署一下

Llama 3 今天发了个新版本，推理效率直接起

分布式推理的坑，我替你们踩完了 🕳️

模型选型别踩坑：部署效率、推理速度与成本

多模态大模型卷不动了？聊聊2024下半年的真实进展

精彩评论5

浏览过的版块