DeepSeek-V2开源引爆性价比之争，MoE架构成主流？

显示全部楼层

兄弟们，今天聊聊DeepSeek新出的V2模型。说白了，这玩意儿直接把大模型的价格打下来了，API调用成本比GPT-4低了近百倍，效果还不差。这不是吹，HuggingFace上已经开源了，实测代码生成和长文本推理确实能打。

重点说几个点：一是MoE（混合专家）架构，V2搞了个236B总参数但每个token只激活21B，推理速度快得一批。二是无问芯穹、阿里云、ModelScope这些国内厂商都在适配了，社区已经有人用它跑微调做垂直领域模型，比如法律文书、代码审查。

实用性来说，如果你做AI应用开发，现在用DeepSeek-V2做后端推理，成本几乎可以忽略不计。建议直接去GitHub看论文和权重，搭个vLLM或者TGI自己部署，单卡4090就能跑起来，别被“千亿参数”吓到。

最后说一句，这波“价格屠夫”操作，逼得智谱、baidu都开始降价了。卷就对了，最终受益的是开发者。有想法或者踩了坑的，评论区见。