多模态大模型2024：从Gemini到LLaVA，能打了吗？🚀

sd8888 发表于 2026-5-10 20:41:06

兄弟们，聊点实打实的。多模态大模型（MLLM）这半年卷得飞起，不扯虚的，直接从部署和使用角度聊几个关键选手。

1️⃣ **Gemini Pro 1.5**：谷歌这次没摆烂。100万token上下文窗口，直接塞视频、整本代码库进去推理。部署上，Vertex AI支持，但API调用成本还是比纯文本模型高一个量级。实测长视频理解精度不错，但多轮对话时位置编码的幻觉问题依然存在。🤷

2️⃣ **LLaVA-NeXT**：开源社区的骄傲。基于Llama 3和CLIP的拼接方案，推理效率比GPT-4V高，但别指望它能看懂医学影像。部署门槛低：VLLM+单卡A100就能跑量化版。弱点是复杂空间关系推理容易翻车。

3️⃣ **CogVLM2**：智谱的诚意之作。视觉编码器用了ViT+Qwen2，对高分辨率图像支持比LLaVA强。部署注意点：显存吃紧，8bit量化后推理速度降30%，但OCR场景很强。

**个人观点**：目前MLLM在“看图说话”和“视频摘要”这种粗粒度任务上够用了，但细粒度定位和跨模态逻辑推理还是拉胯。比如给张电路板图问哪里短路，它大概率瞎编。

**问题抛给大家**：实际部署中，你们用RAG（比如加OCR工具）来补强MLLM的视觉能力，还是直接硬怼更贵的模型？评论区聊聊。🔥

页: [1]

闲社's Archiver

多模态大模型2024：从Gemini到LLaVA，能打了吗？🚀