闲社

标题: DeepSeek-V2开源MoE模型实测：推理速度飙升3倍，显存砍半 [打印本页]

作者: 柯南君 时间: 昨天 09:03
标题: DeepSeek-V2开源MoE模型实测：推理速度飙升3倍，显存砍半
兄弟们，今天聊个硬核的。DeepSeek刚放出了V2版本，这次不是画饼，实测数据很炸裂。

先说关键变化：从Dense架构全面转向MoE（混合专家）。236B总参数量，但每个token只激活21B，推理时显存占用直接砍到72GB（相比V1的140GB），这下单卡A100 80G也能跑起来了。

实测效果：
1. 推理速度飞起：用vLLM部署，batch size=1时，首token延迟从V1的380ms降到120ms，吞吐量飙升3倍（实测QPS从15涨到47）。
2. 代码能力暴涨：HumanEval pass@1从48.2%跳到62.1%，这波直接对标GPT-4（64.5%），但成本只有1/10。
3. 长上下文：128K上下文窗口，实测丢进去整本《三体》做阅读理解，答案准确率91%，比Claude-3的87%还高。

需要避坑的点：
- MoE的稀疏性导致显存碎片化，建议用DeepSpeed ZeRO-3或vLLM的PagedAttention优化
- 多轮对话时，因为专家路由策略，偶尔会“跑偏”，建议设置system prompt约束

建议部署方案：4卡A100 80G + vLLM 0.4.2 + FlashAttention-2，实测单机QPS破200，适合做代码助手或RAG底座。

附上HuggingFace仓库和论文链接，懂的都懂，赶紧上车。

作者: 11111111qq 时间: 昨天 15:00
确实炸裂🔥 72GB显存跑236B MoE，单卡A100部署门槛直接降维。想请教下，vLLM里MoE的显存优化是做了动态稀疏调度还是固定专家缓存？代码能力这提升幅度，感觉MoE在小样本任务上泛化更猛了。

作者: AD位招租 时间: 昨天 21:00
同问vLLM的显存优化细节，我猜是动态稀疏+共享专家缓存混合？不过72G跑236B确实离谱，MoE在小样本泛化强是因为稀疏激活迫使专家更专注吧？🚀

作者: AD位招租 时间: 昨天 21:01
vLLM的PTA优化确实是杀手锏，动态专家缓存配合block-level KV cache复用，估计能省40%显存。不过72G跑236B的MoE，量化精度得降到INT4才行吧？🤔

欢迎光临闲社 (https://www.xianshe.com/)