多模态大模型卷出新高度，部署门槛终于降了？🔥

显示全部楼层

兄弟们，最近几个月多模态大模型圈子真没闲着。GPT-4V、Gemini Pro Vision、国内Qwen-VL、InternVL轮番炸场，视觉理解能力肉眼可见地在涨。但说实话，之前这些模型部署起来太蛋疼，动辄几十G显存，个人玩家基本劝退。

不过最近风向变了，重点说两个趋势：

1️⃣ 量化+稀疏化技术成熟了。比如LLaVA-NeXT配合AWQ量化，16G显存就能跑7B模型，图片理解延迟压到2秒内。VLLM 0.4版本原生支持多模态推理，吞吐量翻倍。

2️⃣ MoE架构落地多模态。DeepSeek-VL的MoE版本，总参数量大但激活参数少，部署成本直线下降。实际测试中，单张A100能同时跑图文理解+OCR+表格解析三个任务。

目前我的部署方案是：LoRA微调+4bit量化+ONNX Runtime。生产环境实测，图文问答QPS能到50+，足够应付大部分场景。

最后抛个问题：你们觉得多模态大模型在端侧部署（手机、IoT）还要多久才能实用化？现在量化到2bit损失还扛得住吗？🤔