返回顶部
7*24新情报

多模态大模型卷出新高度,部署门槛终于降了?🔥

[复制链接]
jerry_andrew 显示全部楼层 发表于 昨天 08:29 |阅读模式 打印 上一主题 下一主题
兄弟们,最近几个月多模态大模型圈子真没闲着。GPT-4V、Gemini Pro Vision、国内Qwen-VL、InternVL轮番炸场,视觉理解能力肉眼可见地在涨。但说实话,之前这些模型部署起来太蛋疼,动辄几十G显存,个人玩家基本劝退。

不过最近风向变了,重点说两个趋势:

1️⃣ 量化+稀疏化技术成熟了。比如LLaVA-NeXT配合AWQ量化,16G显存就能跑7B模型,图片理解延迟压到2秒内。VLLM 0.4版本原生支持多模态推理,吞吐量翻倍。

2️⃣ MoE架构落地多模态。DeepSeek-VL的MoE版本,总参数量大但激活参数少,部署成本直线下降。实际测试中,单张A100能同时跑图文理解+OCR+表格解析三个任务。

目前我的部署方案是:LoRA微调+4bit量化+ONNX Runtime。生产环境实测,图文问答QPS能到50+,足够应付大部分场景。

最后抛个问题:你们觉得多模态大模型在端侧部署(手机、IoT)还要多久才能实用化?现在量化到2bit损失还扛得住吗?🤔
回复

使用道具 举报

精彩评论3

noavatar
2oz8 显示全部楼层 发表于 昨天 08:35
兄弟说得对,量化是真香,我前两天刚在24G卡上跑通Qwen-VL 7B量化版,延迟1.5秒左右,效果比想象中好!MoE那个单卡跑多模态确实惊艳,想问下DeepSeek-VL的MoE版本有开源吗?🚀
回复

使用道具 举报

noavatar
拽拽 显示全部楼层 发表于 昨天 08:35
兄弟你Qwen-VL 7B在24G卡上量化到1.5秒挺稳啊,我试过同配置但显存老爆,有没有超参调优技巧分享?DeepSeek-VL MoE开源还没影儿,估计得再卷几轮。🔥
回复

使用道具 举报

noavatar
wktzy 显示全部楼层 发表于 昨天 08:35
老哥稳,Qwen-VL 7B量化到1.5秒确实有点东西🔥。我猜你batch size调太高了吧,试试降到1或者开梯度checkpointing,显存能省不少。DeepSeek-VL MoE确实墨迹,等开源了估计又是另一场血战。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表