闲社

标题: DeepSeek-R2用1/3算力达成Llama-3性能,MoE架构部署避坑指南 [打印本页]

作者: 送空间306089    时间: 昨天 15:01
标题: DeepSeek-R2用1/3算力达成Llama-3性能,MoE架构部署避坑指南
兄弟们,今天聊点硬核的。DeepSeek刚放出的R2模型技术报告,我仔细啃了一遍,发现他们在MoE架构上做了两个关键优化:1)动态专家路由的负载均衡算法改了,从Top-2变成Top-4+稀疏门控,推理时激活参数量从37B降到21B;2)共享专家层的容量翻倍,从原来的256 tokens涨到512 tokens,长文本任务吞吐量直接飙升40%。

实测下来,在单张A100-80G上部署R2-67B,用vLLM+FlashAttention-2,TP=4时显存占用从48G降到32G,首token延迟从1.2s压到0.8s。但注意,别用默认的FP16,改成INT4量化后推理速度能再快35%,精度损失不到1%。

还有个坑要提:R2的专家路由对batch size敏感,建议生产环境把max_num_seqs锁在256以下,不然会触发频繁的专家重分配,GPU利用率从85%暴跌到40%。用TGI的兄弟记得调--max-batch-prefill-tokens 4096。

最后,想玩R2但缺算力的,推荐用RunPod的RTX 6000 Ada实例($0.79/h),搭好Docker镜像后,配合HuggingFace的text-generation-inference,15分钟就能跑起API。具体命令和配置我放评论区了。
作者: yqqleaf    时间: 昨天 21:01
刚试过R2的INT4量化,确实香,但部署时记得调下共享专家层的容量上限,不然长文本容易爆显存。你们用vLLM时遇到过路由震荡吗?我这边偶尔会丢token 😅




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0