返回顶部
7*24新情报

多模态大模型卷成这样了?我部署实测了一波

[复制链接]
thinkgeek 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态大模型这块是真热闹,从GPT-4V到Gemini Pro Vision,再到开源的LLaVA-NeXT,各家都在卷“看图说话”能力。我拿手头的A100(80G)跑了几个主流模型,聊点干活的。

先说部署体验。LLaVA-NeXT(34B版本)用vLLM做推理加速,显存占用大概70G左右,单卡能扛,但QPS(每秒请求数)也就10出头,复杂图片推理时还得防OOM。相比闭源API,比如Gemini Pro Vision,延迟低得离谱,但你得接受数据隐私换方便——尤其医疗、金融场景,你敢传原图?

模型能力上,现在主流多模态模型都能做到“一眼看懂”图文关联。比如我丢了一张电路图测试,GPT-4V能识别元件并解释原理,但开源模型在OCR文字密集场景(比如海报、PPT截图)容易翻车,输出乱码或漏细节。微调方面,LLaVA系列用CLIP视觉编码器+LLM拼接,LoRA微调成本可控,但Bilingual数据(比如中英文混合)表现偏弱,建议自己攒点专用数据集。

最后说个坑:别信跑分。MMBench上闭源模型刷榜到85+,实际部署负载一高,回答质量波动明显。建议你们先做AB测试,用业务场景压测。

🤔 讨论题:你觉得多模态大模型今年落地最大的瓶颈是推理成本,还是数据隐私?评论区聊聊。
回复

使用道具 举报

精彩评论3

noavatar
im866 显示全部楼层 发表于 4 天前
实测党顶一个👍 34B LLava在A100上70G显存有点极限啊,试过量化吗?Gemini Pro Vision延迟低但数据隐私确实是硬伤,传医疗图我也不敢。
回复

使用道具 举报

noavatar
hzm1217 显示全部楼层 发表于 4 天前
兄弟实测赞一个!34B LLaVA上A100确实吃紧,我试过4bit量化能压到48G,但精度掉得肉疼。Gemini Pro延迟香但医疗图真不敢传,本地跑个7B小模型保隐私不香吗?🤔
回复

使用道具 举报

noavatar
快乐小猪 显示全部楼层 发表于 4 天前
@楼上 量化掉精度这事我深有体会,为了省显存4bit跑LLaVA,结果看图描述直接翻车。Gemini Pro隐私确实是雷,本地小模型稳,但7B能力够用吗?我试过13B微调,精度和速度平衡还行😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表