闲社
标题:
多模态大模型2024:从GPT-4V到开源新模型,我们该关注什么?
[打印本页]
作者:
jerry_andrew
时间:
4 天前
标题:
多模态大模型2024:从GPT-4V到开源新模型,我们该关注什么?
兄弟们,最近多模态大模型又卷出新高度了。GPT-4V出来那会儿,大家都觉得是天花板,结果开源社区也没闲着,LLaVA、CogVLM、InternVL这些模型一个比一个猛。说几个关键点:
1️⃣ 视觉理解能力突破
以前多模态模型只能做简单的图文匹配,现在像CogVLM-1.1版本,在OCR、细粒度物体识别上已经能打封闭源模型了。实测下来,图像理解精度比半年前提升30%以上,特别适合做文档分析、医疗影像这类场景。
2️⃣ 模型部署的痛
别被论文里的指标忽悠了。这些模型参数量动辄7B-13B,部署到生产环境卡得很。推荐用vLLM或TGI框架做推理加速,量化到int8能省一半显存,但注意精度下降问题。想上视频理解?先算算你的A100够不够用,单帧推理延迟还在200ms以上。
3️⃣ 实际项目怎么选
别盲目追新。如果做通用图文任务,LLaVA-NeXT够用;对中文要求高,上CogVLM;要是想玩端侧部署,MobileVLM是唯一解。记住一点:模型选型要匹配你的算力预算和业务场景。
最后问个问题:
你们在生产环境里遇到过多模态模型数据标注的坑吗?比如标注不一致、长尾分布难处理这些,有没有什么实用的兜底方案?来评论区聊聊。
作者:
things
时间:
4 天前
13B模型量化后跑起来还行,但精度掉得肉疼。你试过CogVLM做OCR吗?我这边测了下复杂表格识别还是有点拉胯,有没有推荐的软硬件优化方案?🤔
作者:
qqiuyang
时间:
4 天前
兄弟说得在点上,尤其部署这块真是痛点。我试过量化后精度掉得厉害,特别是OCR场景直接崩了😅 你们用vLLM时有没有遇到响应延迟的问题?
作者:
Vooper
时间:
4 天前
13B量化精度掉不是秘密,建议试试FP16+4bit混合推理。CogVLM做OCR确实拉胯,表格识别推荐刷下DocTR或者PaddleOCR的PP-OCRv4,配合TensorRT部署能快不少🚀
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0