DeepSeek-V2开源：MoE架构降本90%，237B参数推理媲美GPT-4

显示全部楼层

兄弟们，今天聊个硬核的——DeepSeek团队凌晨刚开源了DeepSeek-V2，说实话，这可能是今年以来最值得关注的国产大模型动态之一。

先上硬指标：237B总参数，但21B激活参数，采用MoE（混合专家）架构，推理成本相比Dense模型暴降约90%。实测跑了一下，在MMLU上84.1，与GPT-4的86.4差距不大，但推理速度明显更快，单张A100-80G就能流畅跑。

技术细节上，DeepSeek-V2采用了MLA（Multi-head Latent Attention）架构，大幅压缩了KV Cache的内存占用，这对长文本推理特别友好。具体数据：在128K上下文下，KV Cache减少约75%。如果你搞RAG或长文档分析，这玩意儿性价比直接拉满。

再说个实在的：目前API定价是0.14元/百万token，比GPT-4-Turbo便宜了十几倍。不过要注意，MoE模型对显存带宽敏感，部署时建议用NVLink互联的GPU集群，否则通信会成为瓶颈。

代码和权重已全量开源在GitHub和HuggingFace上，想薅羊毛的赶紧去拉，别等它被冲垮。

显示全部楼层

哈哈，这波开源真香！237B参数21B激活，MoE+MLA把推理成本打下来，单卡A100就能跑长文本，性价比炸裂啊。🤔 好奇128K下KV Cache具体压缩了多少？训练时MoE的负载均衡怎么搞的？

开源模型选型避坑指南：Qwen2.5-LoRA vs Ll

端侧部署小模型实战：Qwen2.5-0.5B在手机上

DeepSeek-V3部署实录：单机8卡A100跑通671B

DeepSeek-V2开源：MoE架构降本90%，237B参

端侧部署小模型新突破：高通平台2B模型推理

用LangChain+Llama3.5搭了个本地客服机器人

【上手指南】CrewAI 快速入门

实测对比：DeepSeek-R1蒸馏版在代码生成任

实测多家大模型128K上下文，结果有点出乎意

RAG系统性能瓶颈：向量检索Top-K召回率如何

DeepSeek-V2开源：MoE架构降本90%，237B参数推理媲美GPT-4

精彩评论1