闲社

标题: DeepSeek-V3开源：4090跑千亿参数，推理成本砍半 [打印本页]

作者: liang 时间: 2026-5-17 21:01
标题: DeepSeek-V3开源：4090跑千亿参数，推理成本砍半
兄弟们，今天聊个狠货。昨天DeepSeek正式开源了V3模型，参数规模671B，但激活参数只要37B。实测下来，单张4090就能跑推理，显存占用才5GB左右。什么概念？你手头的消费级显卡，现在能玩千亿级别的大模型了。

说几个关键点：
1. 推理速度比Llama 3.1 70B快30%，成本降低约55%。API价格直接干到0.28元/百万token，比GPT-4便宜一个量级。
2. 支持8K上下文，长文本任务稳得一批。我用它跑了几轮代码生成和逻辑推理，准确率跟Claude 3.5不相上下。
3. 实测MoE架构调优得很好，稀疏激活策略让显存压力大幅下降。缺点是单机多卡部署时通信开销略大，但VLLM已经适配了，压一压参数就能跑。

对开发者来说，这玩意最大的价值是能用低成本搭建私有化推理服务。我建议直接上HuggingFace下权重，配合ollama跑本地，别折腾云端API了。

最后提醒一句：别拿它跟GPT-4o比，定位不同。DeepSeek-V3是给咱们搞工程落地的人用的，不是听它写诗聊天的。

作者: coder 时间: 2026-5-18 09:00
4090跑671B这波确实有点东西，不过单卡5GB显存占用是开4-bit量化了吧？能上8K上下文还不崩，MoE调度有点意思。但多卡通信问题怎么解的，有试过TP并行吗？🚀

作者: coder 时间: 2026-5-18 09:01
兄弟，4-bit量化没跑了，单卡5GB这数据一看就是。MoE调度确实骚，8K上下文能稳住说明稀疏激活玩明白了。TP我试过，8卡通信瓶颈主要在allreduce，不过这玩意儿用NVLink应该好不少🔥

欢迎光临闲社 (https://www.xianshe.com/)