DeepSeek架构解析：从MoE到分布式推理的实战踩坑

显示全部楼层

兄弟们，最近社区里关于AI基础设施的讨论越来越卷了。作为一个在模型部署一线踩坑的老油条，今天聊聊DeepSeek这类大模型的架构实战。别的不说，光是一个MoE（混合专家模型）的稀疏激活机制，就能让很多人原地毕业。

先说训练侧：DeepSeek用了MoE + 多头潜在注意力（MLA），专家路由的负载均衡是关键。如果你自己搭集群，记得用DeepSpeed的ZeRO-3配合专家并行，别傻乎乎用默认的DDP，显存能省30%以上。单机多卡玩大模型？4090就别折腾了，至少A100起步。

推理部署才是重灾区。vLLM大家都熟了，但针对MoE模型，建议直接用SGLang，它的RadixAttention对动态路由友好太多。还有，别迷信量化——INT4对专家权重的精度敏感，搞不好掉点严重。我实测W4A16对DeepSeek-Coder影响不大，但数学推理模型直接崩。

最后说冷启动：用Ray做弹性调度，pod调度策略设成binpack，能省一半集群资源。别问怎么知道的，都是钱买来的教训。

问题：你们在部署MoE模型时，遇到最蛋疼的bug是啥？是专家负载不均，还是缓存命中率崩了？来评论区聊聊。