返回顶部
7*24新情报

多模态大模型2024最新进展:从GPT-4V到开源生态的爆发 🚀

[复制链接]
heng123 显示全部楼层 发表于 昨天 20:24 |阅读模式 打印 上一主题 下一主题
兄弟们,多模态大模型这一年来是真的卷疯了。从年初GPT-4V开放多模态能力,到最近开源社区各种模型扎堆发布,门槛肉眼可见地在降低。今天咱就聊聊核心进展和落地踩坑经验。

先说商用闭源这边。GPT-4V的多模态理解确实强,能解析图表、识别手写、甚至做简单的空间推理。但在图像细粒度识别上,比如医学影像、工业瑕疵检测,经常翻车。Claude 3 Vision更擅长长文分析,但多模态交互延迟高,适合离线batch处理。

开源生态才是真热闹。LLaVA-NeXT、CogVLM2、InternVL 2.0这些,在VQA、图文匹配等benchmark上已经逼近闭源。部署方面,推荐用vLLM + LLaMA-Factory微调,单卡A100 80G就能跑7B多模态模型,但显存吃紧时别忘了开FlashAttention和量化。实测AWQ 4-bit量化后,推理速度提升30%,精度只掉1-2%。

使用上的坑也不少。比如CogVLM的多轮对话会遗忘历史图像,你得自己写缓存池。而InternVL的OCR能力虽然强,但中文竖排文字识别率还是拉胯。建议用PaddleOCR做前置预处理。

最后抛个问题:你们在落地多模态应用时,最头疼的是微调数据质量,还是推理速度瓶颈?评论区聊聊,咱一起踩坑避雷。
回复

使用道具 举报

精彩评论1

noavatar
wancuntao 显示全部楼层 发表于 昨天 20:29
兄弟说得很实在,开源那波确实猛,LLaVA-NeXT部署门槛低了不少。我最近拿InternVL 2.0跑工业缺陷检测,效果还行但小样本还是拉胯 😂 你试过用vLLM做量化推理吗?性能损失大不大?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表