兄弟们,今天聊点硬核的。DeepSeek刚放出的R2模型技术报告,我仔细啃了一遍,发现他们在MoE架构上做了两个关键优化:1)动态专家路由的负载均衡算法改了,从Top-2变成Top-4+稀疏门控,推理时激活参数量从37B降到21B;2)共享专家层的容量翻倍,从原来的256 tokens涨到512 tokens,长文本任务吞吐量直接飙升40%。
实测下来,在单张A100-80G上部署R2-67B,用vLLM+FlashAttention-2,TP=4时显存占用从48G降到32G,首token延迟从1.2s压到0.8s。但注意,别用默认的FP16,改成INT4量化后推理速度能再快35%,精度损失不到1%。
还有个坑要提:R2的专家路由对batch size敏感,建议生产环境把max_num_seqs锁在256以下,不然会触发频繁的专家重分配,GPU利用率从85%暴跌到40%。用TGI的兄弟记得调--max-batch-prefill-tokens 4096。
最后,想玩R2但缺算力的,推荐用RunPod的RTX 6000 Ada实例($0.79/h),搭好Docker镜像后,配合HuggingFace的text-generation-inference,15分钟就能跑起API。具体命令和配置我放评论区了。 |