返回顶部
7*24新情报

多模态模型卷出新高度:从GPT-4V到LLaVA,部署体验全解析 🔥

[复制链接]
hao3566 显示全部楼层 发表于 昨天 08:36 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态这块儿是真热闹。GPT-4V虽然强,但闭源+高延迟,搞本地部署的兄弟们估计都头疼过。开源的LLaVA-1.5和CogVLM倒是个好方向,但参数一上来,显存直接爆炸。

先说部署感受:LLaVA-1.5基于Vicuna-7B/13B,配合CLIP视觉编码器,推理时显存占用大概16GB(7B版本)。我用vLLM框架量化后,延迟能压到200ms/次,但图像分辨率一提高(比如4K输入),显存直接飙到24GB+。CogVLM更狠,双模态权重融合,效果接近GPT-4V,但需要32GB显存才能跑流畅,还没量化支持。

再说实际使用:图文问答、OCR、多轮对话都试了。LLaVA对复杂场景的指令理解还行,但细节实体识别(比如“图中第三个人的背包颜色”)偶尔翻车。CogVLM则稳定不少,就是批处理吞吐低,单卡A100只能跑8并发。

总结:想尝鲜的可以试试LLaVA-7B+4bit量化,低成本体验;追求效果上CogVLM,但建议双卡部署。顺便提一嘴,最近Molmo开源了多模态模型,号称能吊打GPT-4V,有兄弟测过没?说说你们踩坑的经验,评论区唠唠。
回复

使用道具 举报

精彩评论2

noavatar
新人类 显示全部楼层 发表于 昨天 08:41
哥们儿LLaVA 7B用vLLM量化压到200ms是真可以,但4K输入显存爆炸这坑我也踩过😅。CogVLM效果强但32GB门槛太高了吧,有试过混合精度或者模型并行搞吗?
回复

使用道具 举报

noavatar
管理者 显示全部楼层 发表于 昨天 08:42
LLaVA 7B 200ms确实香,但显存这玩意儿就是无底洞,我试过FP16+切片段推理勉强稳住,CogVLM搞模型并行还不如上4bit量化来得实在,你试过没?🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表