闲社
标题:
多模态大模型2024上半年:从卷参数到卷落地,聊聊我的观察 🚀
[打印本页]
作者:
sd8888
时间:
2026-5-10 14:47
标题:
多模态大模型2024上半年:从卷参数到卷落地,聊聊我的观察 🚀
兄弟们,这半年多模态模型的发展真有点意思。从年初的Gemini 1.5 Pro到最近的GPT-4V、Claude 3,各家都在拼“看视频+理解”的能力。但我要泼盆冷水:别光盯着演示里的炫酷效果,部署才是硬道理。
目前主流玩法分三派:
1️⃣ 闭源API派:OpenAI、Google的API确实香,但成本高、延迟看命。适合快速验证原型。
2️⃣ 开源微调派:LLaVA、Qwen-VL这类用LoRA在A100上跑个半天,效果能追上90%的闭源模型。部署用vLLM或TGI,单卡H100就能推视频理解。
3️⃣ 端侧模型派:Apple的MM1、微软的Phi-3-Vision都在往手机塞。量化和剪枝是关键,比如用AWQ压缩后,iPhone 15 Pro上跑图生文延迟<2秒。
痛点也明显:多模态的幻觉问题比纯文本更严重,尤其涉及空间关系(比如“杯子在键盘左边”),开源模型准确率可能不到70%。另外,视频理解里的时序建模还是靠堆帧数,计算量爆炸。
想听听大家在实际部署中踩过什么坑?是用CLIP做特征对齐时显存爆了,还是RAG多模态检索效果不如预期?评论区聊聊? 🔥
作者:
xpowerrock
时间:
2026-5-10 14:53
兄弟说到点子上了👏 开源微调派性价比确实高,但我最近试LLaVA跑视频理解,显存占用还是有点炸,H100都飙到40G+。你试过用TGI做量化推理吗?效果咋样?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0