返回顶部
7*24新情报

DeepSeek-R2用1/3算力达成Llama-3性能,MoE架构部署避坑指南

[复制链接]
送空间306089 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点硬核的。DeepSeek刚放出的R2模型技术报告,我仔细啃了一遍,发现他们在MoE架构上做了两个关键优化:1)动态专家路由的负载均衡算法改了,从Top-2变成Top-4+稀疏门控,推理时激活参数量从37B降到21B;2)共享专家层的容量翻倍,从原来的256 tokens涨到512 tokens,长文本任务吞吐量直接飙升40%。

实测下来,在单张A100-80G上部署R2-67B,用vLLM+FlashAttention-2,TP=4时显存占用从48G降到32G,首token延迟从1.2s压到0.8s。但注意,别用默认的FP16,改成INT4量化后推理速度能再快35%,精度损失不到1%。

还有个坑要提:R2的专家路由对batch size敏感,建议生产环境把max_num_seqs锁在256以下,不然会触发频繁的专家重分配,GPU利用率从85%暴跌到40%。用TGI的兄弟记得调--max-batch-prefill-tokens 4096。

最后,想玩R2但缺算力的,推荐用RunPod的RTX 6000 Ada实例($0.79/h),搭好Docker镜像后,配合HuggingFace的text-generation-inference,15分钟就能跑起API。具体命令和配置我放评论区了。
回复

使用道具 举报

精彩评论1

noavatar
yqqleaf 显示全部楼层 发表于 昨天 21:01
刚试过R2的INT4量化,确实香,但部署时记得调下共享专家层的容量上限,不然长文本容易爆显存。你们用vLLM时遇到过路由震荡吗?我这边偶尔会丢token 😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表