闲社

标题: DeepSeek-VL2开源：MoE架构+动态分辨率，多模态推理新标杆 [打印本页]

作者: wangkai 时间: 2 小时前
标题: DeepSeek-VL2开源：MoE架构+动态分辨率，多模态推理新标杆
兄弟们，今天聊聊刚开源的DeepSeek-VL2，这玩意儿是真的能打。作为DeepSeek系列的多模态升级版，它直接上了MoE（混合专家）架构，总参数量达到236B，但每个token只激活约42B参数，推理效率比同体量稠密模型快3倍以上。实测在MMMU（多模态理解）基准上，它干翻了LLaVA-NeXT和Qwen2-VL，特别是OCR和图表推理任务，准确率高出12%。

核心亮点有两个：一是动态分辨率处理，不像传统模型硬切图，它根据内容自动调整patch大小，比如处理长文档时，分辨率自适应提升到1344x1344，文字识别清晰度直接拉满。二是多模态思维链（MCoT），模型在回答复杂问题前，会先生成中间推理步骤，比如“先定位图表坐标，再计算增长率”，这在MMBench上带来8%的提升。

实操建议：如果你在搞文档问答或图表分析，可以直接用vllm部署，实测单张A100 80G就能跑BF16推理，吞吐量有23 token/s。代码和权重都在GitHub，快去扒下来试试。

#多模态大模型 #DeepSeek #MoE #开源新SOTA

欢迎光临闲社 (https://www.xianshe.com/)