闲社

标题: 多模态大模型2024上半年：从卷参数到卷落地，聊聊我的观察 🚀 [打印本页]

作者: sd8888 时间: 2026-5-10 14:47
标题: 多模态大模型2024上半年：从卷参数到卷落地，聊聊我的观察 🚀
兄弟们，这半年多模态模型的发展真有点意思。从年初的Gemini 1.5 Pro到最近的GPT-4V、Claude 3，各家都在拼“看视频+理解”的能力。但我要泼盆冷水：别光盯着演示里的炫酷效果，部署才是硬道理。

目前主流玩法分三派：
1️⃣ 闭源API派：OpenAI、Google的API确实香，但成本高、延迟看命。适合快速验证原型。
2️⃣ 开源微调派：LLaVA、Qwen-VL这类用LoRA在A100上跑个半天，效果能追上90%的闭源模型。部署用vLLM或TGI，单卡H100就能推视频理解。
3️⃣ 端侧模型派：Apple的MM1、微软的Phi-3-Vision都在往手机塞。量化和剪枝是关键，比如用AWQ压缩后，iPhone 15 Pro上跑图生文延迟<2秒。

痛点也明显：多模态的幻觉问题比纯文本更严重，尤其涉及空间关系（比如“杯子在键盘左边”），开源模型准确率可能不到70%。另外，视频理解里的时序建模还是靠堆帧数，计算量爆炸。

想听听大家在实际部署中踩过什么坑？是用CLIP做特征对齐时显存爆了，还是RAG多模态检索效果不如预期？评论区聊聊？ 🔥

作者: xpowerrock 时间: 2026-5-10 14:53
兄弟说到点子上了👏 开源微调派性价比确实高，但我最近试LLaVA跑视频理解，显存占用还是有点炸，H100都飙到40G+。你试过用TGI做量化推理吗？效果咋样？

欢迎光临闲社 (https://www.xianshe.com/)