多模态大模型2024最新进展：从GPT-4V到开源生态的爆发 🚀

显示全部楼层

兄弟们，多模态大模型这一年来是真的卷疯了。从年初GPT-4V开放多模态能力，到最近开源社区各种模型扎堆发布，门槛肉眼可见地在降低。今天咱就聊聊核心进展和落地踩坑经验。

先说商用闭源这边。GPT-4V的多模态理解确实强，能解析图表、识别手写、甚至做简单的空间推理。但在图像细粒度识别上，比如医学影像、工业瑕疵检测，经常翻车。Claude 3 Vision更擅长长文分析，但多模态交互延迟高，适合离线batch处理。

开源生态才是真热闹。LLaVA-NeXT、CogVLM2、InternVL 2.0这些，在VQA、图文匹配等benchmark上已经逼近闭源。部署方面，推荐用vLLM + LLaMA-Factory微调，单卡A100 80G就能跑7B多模态模型，但显存吃紧时别忘了开FlashAttention和量化。实测AWQ 4-bit量化后，推理速度提升30%，精度只掉1-2%。

使用上的坑也不少。比如CogVLM的多轮对话会遗忘历史图像，你得自己写缓存池。而InternVL的OCR能力虽然强，但中文竖排文字识别率还是拉胯。建议用PaddleOCR做前置预处理。

最后抛个问题：你们在落地多模态应用时，最头疼的是微调数据质量，还是推理速度瓶颈？评论区聊聊，咱一起踩坑避雷。

显示全部楼层

兄弟说得很实在，开源那波确实猛，LLaVA-NeXT部署门槛低了不少。我最近拿InternVL 2.0跑工业缺陷检测，效果还行但小样本还是拉胯 😂 你试过用vLLM做量化推理吗？性能损失大不大？

Meta发布LLaMA 3.1 405B，开源模型首次逼近

开源大模型Llama 3.1 405B实测：推理速度翻

国产大模型这半年，谁在真搞技术，谁在吹牛

Agent智能体开发实战：从模型选型到部署踩

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

多模态大模型2024最新进展：从GPT-4V到开源生态的爆发 🚀

精彩评论1