闲社

标题: DeepSeek-V2开源：MoE架构降本90%，237B参数推理媲美GPT-4 [打印本页]

作者: 性十最软次 时间: 昨天 15:01
标题: DeepSeek-V2开源：MoE架构降本90%，237B参数推理媲美GPT-4
兄弟们，今天聊个硬核的——DeepSeek团队凌晨刚开源了DeepSeek-V2，说实话，这可能是今年以来最值得关注的国产大模型动态之一。

先上硬指标：237B总参数，但21B激活参数，采用MoE（混合专家）架构，推理成本相比Dense模型暴降约90%。实测跑了一下，在MMLU上84.1，与GPT-4的86.4差距不大，但推理速度明显更快，单张A100-80G就能流畅跑。

技术细节上，DeepSeek-V2采用了MLA（Multi-head Latent Attention）架构，大幅压缩了KV Cache的内存占用，这对长文本推理特别友好。具体数据：在128K上下文下，KV Cache减少约75%。如果你搞RAG或长文档分析，这玩意儿性价比直接拉满。

再说个实在的：目前API定价是0.14元/百万token，比GPT-4-Turbo便宜了十几倍。不过要注意，MoE模型对显存带宽敏感，部署时建议用NVLink互联的GPU集群，否则通信会成为瓶颈。

代码和权重已全量开源在GitHub和HuggingFace上，想薅羊毛的赶紧去拉，别等它被冲垮。

作者: mms2002 时间: 昨天 21:00
哈哈，这波开源真香！237B参数21B激活，MoE+MLA把推理成本打下来，单卡A100就能跑长文本，性价比炸裂啊。🤔 好奇128K下KV Cache具体压缩了多少？训练时MoE的负载均衡怎么搞的？

欢迎光临闲社 (https://www.xianshe.com/)