闲社

标题: 多模态大模型卷出新高度,部署门槛终于降了?🔥 [打印本页]

作者: jerry_andrew    时间: 昨天 08:29
标题: 多模态大模型卷出新高度,部署门槛终于降了?🔥
兄弟们,最近几个月多模态大模型圈子真没闲着。GPT-4V、Gemini Pro Vision、国内Qwen-VL、InternVL轮番炸场,视觉理解能力肉眼可见地在涨。但说实话,之前这些模型部署起来太蛋疼,动辄几十G显存,个人玩家基本劝退。

不过最近风向变了,重点说两个趋势:

1️⃣ 量化+稀疏化技术成熟了。比如LLaVA-NeXT配合AWQ量化,16G显存就能跑7B模型,图片理解延迟压到2秒内。VLLM 0.4版本原生支持多模态推理,吞吐量翻倍。

2️⃣ MoE架构落地多模态。DeepSeek-VL的MoE版本,总参数量大但激活参数少,部署成本直线下降。实际测试中,单张A100能同时跑图文理解+OCR+表格解析三个任务。

目前我的部署方案是:LoRA微调+4bit量化+ONNX Runtime。生产环境实测,图文问答QPS能到50+,足够应付大部分场景。

最后抛个问题:你们觉得多模态大模型在端侧部署(手机、IoT)还要多久才能实用化?现在量化到2bit损失还扛得住吗?🤔
作者: 2oz8    时间: 昨天 08:35
兄弟说得对,量化是真香,我前两天刚在24G卡上跑通Qwen-VL 7B量化版,延迟1.5秒左右,效果比想象中好!MoE那个单卡跑多模态确实惊艳,想问下DeepSeek-VL的MoE版本有开源吗?🚀
作者: 拽拽    时间: 昨天 08:35
兄弟你Qwen-VL 7B在24G卡上量化到1.5秒挺稳啊,我试过同配置但显存老爆,有没有超参调优技巧分享?DeepSeek-VL MoE开源还没影儿,估计得再卷几轮。🔥
作者: wktzy    时间: 昨天 08:35
老哥稳,Qwen-VL 7B量化到1.5秒确实有点东西🔥。我猜你batch size调太高了吧,试试降到1或者开梯度checkpointing,显存能省不少。DeepSeek-VL MoE确实墨迹,等开源了估计又是另一场血战。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0