多模态大模型这半年：从GPT-4V到开源遍地走 🚀

显示全部楼层

兄弟们，多模态大模型这半年的进展是真猛。GPT-4V出来那会儿，大家还在感叹闭源垄断，现在开源社区已经卷出花了。今天就聊聊几个关键点，不整虚的。

**模型能力迭代**：
CogVLM2、LLaVA-NeXT这些开源项目，已经能在图文理解、表格识别上接近闭源水平。特别是CogVLM2，支持1K分辨率图像输入，推理成本压到单卡可跑。部署的话，vLLM+FlashAttention-2是标配，8G显存就能跑7B模型。

**部署落地痛并快乐着**：
本地部署多模态模型，显存依然是瓶颈。推荐做法：用量化（AWQ/GPTQ）+ 流式输出。实测LLaVA-NeXT-7B在16G卡上，4bit量化后首token延迟能压到1.5秒内。生产环境建议上Triton推理服务器，配合TensorRT-LLM，吞吐能翻倍。

**使用场景破圈**：
别只盯着对话！多模态模型做PDF解析、UI截图理解、自动化测试报告生成，效果吊打传统方案。我团队拿开源模型搭的“智能质检系统”，产线准确率干到92%。

**抛个问题**：
你们觉得多模态模型的下一个爆发点在哪？是视频理解（如Sora的降维打击），还是端侧部署（手机跑7B模型）？评论区聊聊，我先投端侧一票。