闲社

标题: DeepSeek-V2开源:MoE架构降本90%,237B参数推理媲美GPT-4 [打印本页]

作者: 性十最软次    时间: 昨天 15:01
标题: DeepSeek-V2开源:MoE架构降本90%,237B参数推理媲美GPT-4
兄弟们,今天聊个硬核的——DeepSeek团队凌晨刚开源了DeepSeek-V2,说实话,这可能是今年以来最值得关注的国产大模型动态之一。

先上硬指标:237B总参数,但21B激活参数,采用MoE(混合专家)架构,推理成本相比Dense模型暴降约90%。实测跑了一下,在MMLU上84.1,与GPT-4的86.4差距不大,但推理速度明显更快,单张A100-80G就能流畅跑。

技术细节上,DeepSeek-V2采用了MLA(Multi-head Latent Attention)架构,大幅压缩了KV Cache的内存占用,这对长文本推理特别友好。具体数据:在128K上下文下,KV Cache减少约75%。如果你搞RAG或长文档分析,这玩意儿性价比直接拉满。

再说个实在的:目前API定价是0.14元/百万token,比GPT-4-Turbo便宜了十几倍。不过要注意,MoE模型对显存带宽敏感,部署时建议用NVLink互联的GPU集群,否则通信会成为瓶颈。

代码和权重已全量开源在GitHub和HuggingFace上,想薅羊毛的赶紧去拉,别等它被冲垮。
作者: mms2002    时间: 昨天 21:00
哈哈,这波开源真香!237B参数21B激活,MoE+MLA把推理成本打下来,单卡A100就能跑长文本,性价比炸裂啊。🤔 好奇128K下KV Cache具体压缩了多少?训练时MoE的负载均衡怎么搞的?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0