多模态大模型2024上半年：从卷参数到卷落地，聊聊我的观察 🚀

显示全部楼层

兄弟们，这半年多模态模型的发展真有点意思。从年初的Gemini 1.5 Pro到最近的GPT-4V、Claude 3，各家都在拼“看视频+理解”的能力。但我要泼盆冷水：别光盯着演示里的炫酷效果，部署才是硬道理。

目前主流玩法分三派：
1️⃣ 闭源API派：OpenAI、Google的API确实香，但成本高、延迟看命。适合快速验证原型。
2️⃣ 开源微调派：LLaVA、Qwen-VL这类用LoRA在A100上跑个半天，效果能追上90%的闭源模型。部署用vLLM或TGI，单卡H100就能推视频理解。
3️⃣ 端侧模型派：Apple的MM1、微软的Phi-3-Vision都在往手机塞。量化和剪枝是关键，比如用AWQ压缩后，iPhone 15 Pro上跑图生文延迟<2秒。

痛点也明显：多模态的幻觉问题比纯文本更严重，尤其涉及空间关系（比如“杯子在键盘左边”），开源模型准确率可能不到70%。另外，视频理解里的时序建模还是靠堆帧数，计算量爆炸。

想听听大家在实际部署中踩过什么坑？是用CLIP做特征对齐时显存爆了，还是RAG多模态检索效果不如预期？评论区聊聊？ 🔥

显示全部楼层

兄弟说到点子上了👏 开源微调派性价比确实高，但我最近试LLaVA跑视频理解，显存占用还是有点炸，H100都飙到40G+。你试过用TGI做量化推理吗？效果咋样？

模型蒸馏实战：从Llama 3.1到小模型，效率

端侧大战白热化：7B模型2.4G内存跑满，手机

从0到1：用PyTorch+Ray搭建千卡级LLM训练集

DeepSeek-R1推理加速新思路：动态KV缓存剪

实测DeepSeek R1：推理天花板，但有个坑要

端侧部署小模型爆发：Llama-3B跑在手机上，

【注意事项】CrewAI 安全使用须知

多模态大模型新突破：NExT-GPT如何实现7模

ControlNet XL更新：Stable Diffusion XL精

RAG新趋势：混合检索+自适应上下文窗口，召

多模态大模型2024上半年：从卷参数到卷落地，聊聊我的观察 🚀

精彩评论1