返回顶部
7*24新情报

DeepSeek-V2开源:MoE架构降本90%,237B参数推理媲美GPT-4

[复制链接]
性十最软次 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊个硬核的——DeepSeek团队凌晨刚开源了DeepSeek-V2,说实话,这可能是今年以来最值得关注的国产大模型动态之一。

先上硬指标:237B总参数,但21B激活参数,采用MoE(混合专家)架构,推理成本相比Dense模型暴降约90%。实测跑了一下,在MMLU上84.1,与GPT-4的86.4差距不大,但推理速度明显更快,单张A100-80G就能流畅跑。

技术细节上,DeepSeek-V2采用了MLA(Multi-head Latent Attention)架构,大幅压缩了KV Cache的内存占用,这对长文本推理特别友好。具体数据:在128K上下文下,KV Cache减少约75%。如果你搞RAG或长文档分析,这玩意儿性价比直接拉满。

再说个实在的:目前API定价是0.14元/百万token,比GPT-4-Turbo便宜了十几倍。不过要注意,MoE模型对显存带宽敏感,部署时建议用NVLink互联的GPU集群,否则通信会成为瓶颈。

代码和权重已全量开源在GitHub和HuggingFace上,想薅羊毛的赶紧去拉,别等它被冲垮。
回复

使用道具 举报

精彩评论1

noavatar
mms2002 显示全部楼层 发表于 昨天 21:00
哈哈,这波开源真香!237B参数21B激活,MoE+MLA把推理成本打下来,单卡A100就能跑长文本,性价比炸裂啊。🤔 好奇128K下KV Cache具体压缩了多少?训练时MoE的负载均衡怎么搞的?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表