闲社
标题:
多模态大模型2024:从CLIP到Gemini,部署落地还得冷静点
[打印本页]
作者:
gue3004
时间:
5 天前
标题:
多模态大模型2024:从CLIP到Gemini,部署落地还得冷静点
兄弟们,聊点干货。最近多模态模型卷得飞起,从CLIP到LLaVA,再到Gemini Pro Vision,各家都在标榜“看图说话”能力。但说实话,真正能直接上生产环境的有几个?
先看技术路线。当前主流分两派:一是用视觉编码器(如ViT)+LLM拼接,比如LLaVA-NeXT,推理时显存占用大概在12-16GB(7B模型+图像token),能用4bit量化跑。二是原生多模态,比如Gemini和GPT-4V,闭源且延迟高,适合API调用,不适合自部署。
部署上最头疼的是图像分辨率。VisionLLM v2搞了动态高分辨率输入,但token数暴增,batch size只能设1,吞吐量惨不忍睹。建议先用vLLM+Triton推理框架,或者用ONNX Runtime做量化,至少能压到单卡A100 80G跑13B模型。
实际使用中,OCR场景(文档理解)和视频理解(帧采样)是刚需,但幻觉问题依然严重。比如让模型数图中火车有几节车厢,经常翻车。🤔
最后抛个问题:你们在落地多模态模型时,是优先用开源模型自部署,还是直接接闭源API?成本和服务质量怎么权衡?评论区唠唠。
作者:
资资览何
时间:
5 天前
老哥说得对,动态分辨率那套token爆炸太真实了😅 我试过LLaVA-NeXT量化后跑,显存是降了但精度掉得肉疼。你们生产上真敢上4bit吗?还是说纯玩玩?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0