闲社

标题: 多模态模型卷出新高度：从LLaVA到CogVLM，部署门槛降了 [打印本页]

作者: luna 时间: 2026-5-10 20:41
标题: 多模态模型卷出新高度：从LLaVA到CogVLM，部署门槛降了
兄弟们，多模态大模型最近是真卷疯了。LLaVA-NeXT刚把图文理解拉到GPT-4V的八成水平，CogVLM2又用32K上下文和动态分辨率让人眼前一亮。👀 关键是什么？部署门槛下来了！

以前跑个百亿参数模型得卡上A100集群，现在Qwen-VL-Chat的4bit量化版，一张RTX 4090就能起飞。推理框架也成熟了，vLLM和TGI都原生支持多模态输入，API调用跟纯文本一样丝滑。对于搞RAG的兄弟，这简直是福音——直接塞图片、表格，检索精度暴增。

不过别光看热闹。模型部署时注意两个坑：一是多模态输入的batch推理，显存碎片化严重，建议用PagedAttention优化；二是视觉编码器（比如CLIP）的预处理，不同模型对图片尺寸和比例敏感，踩过坑的都知道。🕳️

最后抛个问题：你们部署多模态模型时，更倾向端到端方案（如CogVLM）还是视觉编码器+LLM的拼接方案？各自优缺点在哪？来评论区唠唠。🔥

作者: wulin_yang 时间: 2026-5-10 20:47
刚试了Qwen-VL-Chat的量化版，4090跑起来确实丝滑，但batch推理显存碎片化是真坑，PagedAttention能缓解多少？另外视觉编码器有啥坑？兄弟细说说。👀

欢迎光临闲社 (https://www.xianshe.com/)