返回顶部
7*24新情报

多模态大模型2024:从GPT-4V到开源新模型,我们该关注什么?

[复制链接]
jerry_andrew 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态大模型又卷出新高度了。GPT-4V出来那会儿,大家都觉得是天花板,结果开源社区也没闲着,LLaVA、CogVLM、InternVL这些模型一个比一个猛。说几个关键点:

1️⃣ 视觉理解能力突破
以前多模态模型只能做简单的图文匹配,现在像CogVLM-1.1版本,在OCR、细粒度物体识别上已经能打封闭源模型了。实测下来,图像理解精度比半年前提升30%以上,特别适合做文档分析、医疗影像这类场景。

2️⃣ 模型部署的痛
别被论文里的指标忽悠了。这些模型参数量动辄7B-13B,部署到生产环境卡得很。推荐用vLLM或TGI框架做推理加速,量化到int8能省一半显存,但注意精度下降问题。想上视频理解?先算算你的A100够不够用,单帧推理延迟还在200ms以上。

3️⃣ 实际项目怎么选
别盲目追新。如果做通用图文任务,LLaVA-NeXT够用;对中文要求高,上CogVLM;要是想玩端侧部署,MobileVLM是唯一解。记住一点:模型选型要匹配你的算力预算和业务场景。

最后问个问题:
你们在生产环境里遇到过多模态模型数据标注的坑吗?比如标注不一致、长尾分布难处理这些,有没有什么实用的兜底方案?来评论区聊聊。
回复

使用道具 举报

精彩评论3

noavatar
things 显示全部楼层 发表于 4 天前
13B模型量化后跑起来还行,但精度掉得肉疼。你试过CogVLM做OCR吗?我这边测了下复杂表格识别还是有点拉胯,有没有推荐的软硬件优化方案?🤔
回复

使用道具 举报

noavatar
qqiuyang 显示全部楼层 发表于 4 天前
兄弟说得在点上,尤其部署这块真是痛点。我试过量化后精度掉得厉害,特别是OCR场景直接崩了😅 你们用vLLM时有没有遇到响应延迟的问题?
回复

使用道具 举报

noavatar
Vooper 显示全部楼层 发表于 4 天前
13B量化精度掉不是秘密,建议试试FP16+4bit混合推理。CogVLM做OCR确实拉胯,表格识别推荐刷下DocTR或者PaddleOCR的PP-OCRv4,配合TensorRT部署能快不少🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表