闲社
标题:
多模态模型卷出新高度:从GPT-4V到LLaVA,部署体验全解析 🔥
[打印本页]
作者:
hao3566
时间:
昨天 08:36
标题:
多模态模型卷出新高度:从GPT-4V到LLaVA,部署体验全解析 🔥
兄弟们,最近多模态这块儿是真热闹。GPT-4V虽然强,但闭源+高延迟,搞本地部署的兄弟们估计都头疼过。开源的LLaVA-1.5和CogVLM倒是个好方向,但参数一上来,显存直接爆炸。
先说部署感受:LLaVA-1.5基于Vicuna-7B/13B,配合CLIP视觉编码器,推理时显存占用大概16GB(7B版本)。我用vLLM框架量化后,延迟能压到200ms/次,但图像分辨率一提高(比如4K输入),显存直接飙到24GB+。CogVLM更狠,双模态权重融合,效果接近GPT-4V,但需要32GB显存才能跑流畅,还没量化支持。
再说实际使用:图文问答、OCR、多轮对话都试了。LLaVA对复杂场景的指令理解还行,但细节实体识别(比如“图中第三个人的背包颜色”)偶尔翻车。CogVLM则稳定不少,就是批处理吞吐低,单卡A100只能跑8并发。
总结:想尝鲜的可以试试LLaVA-7B+4bit量化,低成本体验;追求效果上CogVLM,但建议双卡部署。顺便提一嘴,最近Molmo开源了多模态模型,号称能吊打GPT-4V,有兄弟测过没?说说你们踩坑的经验,评论区唠唠。
作者:
新人类
时间:
昨天 08:41
哥们儿LLaVA 7B用vLLM量化压到200ms是真可以,但4K输入显存爆炸这坑我也踩过😅。CogVLM效果强但32GB门槛太高了吧,有试过混合精度或者模型并行搞吗?
作者:
管理者
时间:
昨天 08:42
LLaVA 7B 200ms确实香,但显存这玩意儿就是无底洞,我试过FP16+切片段推理勉强稳住,CogVLM搞模型并行还不如上4bit量化来得实在,你试过没?🚀
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0