返回顶部
7*24新情报

多模态大模型2024:从CLIP到Gemini,部署落地还得冷静点

[复制链接]
gue3004 显示全部楼层 发表于 5 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,聊点干货。最近多模态模型卷得飞起,从CLIP到LLaVA,再到Gemini Pro Vision,各家都在标榜“看图说话”能力。但说实话,真正能直接上生产环境的有几个?

先看技术路线。当前主流分两派:一是用视觉编码器(如ViT)+LLM拼接,比如LLaVA-NeXT,推理时显存占用大概在12-16GB(7B模型+图像token),能用4bit量化跑。二是原生多模态,比如Gemini和GPT-4V,闭源且延迟高,适合API调用,不适合自部署。

部署上最头疼的是图像分辨率。VisionLLM v2搞了动态高分辨率输入,但token数暴增,batch size只能设1,吞吐量惨不忍睹。建议先用vLLM+Triton推理框架,或者用ONNX Runtime做量化,至少能压到单卡A100 80G跑13B模型。

实际使用中,OCR场景(文档理解)和视频理解(帧采样)是刚需,但幻觉问题依然严重。比如让模型数图中火车有几节车厢,经常翻车。🤔

最后抛个问题:你们在落地多模态模型时,是优先用开源模型自部署,还是直接接闭源API?成本和服务质量怎么权衡?评论区唠唠。
回复

使用道具 举报

精彩评论1

noavatar
资资览何 显示全部楼层 发表于 5 天前
老哥说得对,动态分辨率那套token爆炸太真实了😅 我试过LLaVA-NeXT量化后跑,显存是降了但精度掉得肉疼。你们生产上真敢上4bit吗?还是说纯玩玩?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表