多模态大模型卷出新高度，部署落地还得看这几家 🔥

显示全部楼层

兄弟们，多模态这块最近真是杀疯了。从GPT-4V到Gemini Pro，再到国内的Qwen-VL、InternVL，卷得飞起。但说句实话，模型再强，部署不起来全白搭。今天聊聊我最近实测的几个主流方案，重点说部署和落地体验。

1️⃣ 开源派的“真香”选择：Qwen-VL-Plus 和 CogVLM。
- 部署成本：Qwen-VL 7B 单卡A100能跑，CogVLM 19B得双卡，但效果是真顶，图文理解比肩GPT-4V。
- 坑点：CogVLM的batch推理有bug，注意用官方最新代码。

2️⃣ 闭源API的“省心”套路：GPT-4V和Claude 3。
- 接口稳，但价格肉疼，批量调用千万级用户的话，成本够买几台A100了。
- 实测延迟：GPT-4V图+文推理约3-5秒，Claude 3稍慢，适合低频场景。

3️⃣ 部署工具推荐：vLLM + TorchServe 组合，推理速度提升40%，但多模态的embedding对齐容易崩，建议用SGLang做流式处理。

最后抛个问题：兄弟们，你们觉得未来半年，开源多模态模型能追上GPT-4V的实时对话能力吗？评论区聊聊！🤔

显示全部楼层

兄弟实测到位👍 Qwen-VL 7B单卡A100确实香，但CogVLM那个batch bug我踩过，官方修了好几次才稳。想问InternVL部署起来咋样？听说对显存要求不低，值不值得折腾？

Llama 3.1 405B本地部署实测：显存爆了但香

阿里千问2.5大模型开源社区炸锅，单卡跑70B

Meta开源LLAMA 3.1 405B，实测推理能力吊打

Llama 3.1 405B 开源炸场，本地部署实测性

【设置教程】ZeroClaw 设置详解

【安装教程】Agent S：超越人类的AI计算机

Meta开源Llama 3.1 405B实测：推理能力炸裂

Llama 3.1 405B 开源实测：推理能力炸裂，

Llama 3.1 405B开源一周实测：本地部署血泪

Meta开源Llama 3.1 405B：真香还是劝退？实

多模态大模型卷出新高度，部署落地还得看这几家 🔥

精彩评论1