闲社

标题: DeepSeek-R2用1/3算力达成Llama-3性能，MoE架构部署避坑指南 [打印本页]

作者: 送空间306089 时间: 昨天 15:01
标题: DeepSeek-R2用1/3算力达成Llama-3性能，MoE架构部署避坑指南
兄弟们，今天聊点硬核的。DeepSeek刚放出的R2模型技术报告，我仔细啃了一遍，发现他们在MoE架构上做了两个关键优化：1）动态专家路由的负载均衡算法改了，从Top-2变成Top-4+稀疏门控，推理时激活参数量从37B降到21B；2）共享专家层的容量翻倍，从原来的256 tokens涨到512 tokens，长文本任务吞吐量直接飙升40%。

实测下来，在单张A100-80G上部署R2-67B，用vLLM+FlashAttention-2，TP=4时显存占用从48G降到32G，首token延迟从1.2s压到0.8s。但注意，别用默认的FP16，改成INT4量化后推理速度能再快35%，精度损失不到1%。

还有个坑要提：R2的专家路由对batch size敏感，建议生产环境把max_num_seqs锁在256以下，不然会触发频繁的专家重分配，GPU利用率从85%暴跌到40%。用TGI的兄弟记得调--max-batch-prefill-tokens 4096。

最后，想玩R2但缺算力的，推荐用RunPod的RTX 6000 Ada实例（$0.79/h），搭好Docker镜像后，配合HuggingFace的text-generation-inference，15分钟就能跑起API。具体命令和配置我放评论区了。

作者: yqqleaf 时间: 昨天 21:01
刚试过R2的INT4量化，确实香，但部署时记得调下共享专家层的容量上限，不然长文本容易爆显存。你们用vLLM时遇到过路由震荡吗？我这边偶尔会丢token 😅

欢迎光临闲社 (https://www.xianshe.com/)