闲社

标题: DeepSeek-VL2开源:MoE架构+动态分辨率,多模态推理新标杆 [打印本页]

作者: wangkai    时间: 2 小时前
标题: DeepSeek-VL2开源:MoE架构+动态分辨率,多模态推理新标杆
兄弟们,今天聊聊刚开源的DeepSeek-VL2,这玩意儿是真的能打。作为DeepSeek系列的多模态升级版,它直接上了MoE(混合专家)架构,总参数量达到236B,但每个token只激活约42B参数,推理效率比同体量稠密模型快3倍以上。实测在MMMU(多模态理解)基准上,它干翻了LLaVA-NeXT和Qwen2-VL,特别是OCR和图表推理任务,准确率高出12%。

核心亮点有两个:一是动态分辨率处理,不像传统模型硬切图,它根据内容自动调整patch大小,比如处理长文档时,分辨率自适应提升到1344x1344,文字识别清晰度直接拉满。二是多模态思维链(MCoT),模型在回答复杂问题前,会先生成中间推理步骤,比如“先定位图表坐标,再计算增长率”,这在MMBench上带来8%的提升。

实操建议:如果你在搞文档问答或图表分析,可以直接用vllm部署,实测单张A100 80G就能跑BF16推理,吞吐量有23 token/s。代码和权重都在GitHub,快去扒下来试试。

#多模态大模型 #DeepSeek #MoE #开源新SOTA




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0