返回顶部
7*24新情报

DeepSeek开源MoE新架构曝光,推理成本再降40%

[复制链接]
guodongxiong 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
刚扒完DeepSeek放出的技术报告,这波操作有点意思。他们在MoE(混合专家模型)上做了个微调,把路由机制改成了动态负载均衡,实测推理延迟降了30%,显存占用直接砍掉40%。具体做法是啥?把原来固定的top-k专家选择换成自适应门控,模型会根据输入动态调整专家激活数量,避免算力浪费在无关参数上。

实测数据:在A100上跑70B模型,相同精度下,首token延迟从2.1s降到1.3s,吞吐量提升接近一倍。最骚的是,这玩意儿不需要重新训练,直接在现有MoE架构上替换路由层就行,兼容HuggingFace和vLLM的接口。

说人话:如果你现在还在用传统MoE部署大模型,换个路由层代码,推理成本直接打六折。别问我为啥不早说,我也是刚拿到完整复现代码。想搞私有化部署的朋友,这波羊毛不薅血亏。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表