返回顶部
7*24新情报

DeepSeek-V3开源:4090跑千亿参数,推理成本砍半

[复制链接]
liang 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊个狠货。昨天DeepSeek正式开源了V3模型,参数规模671B,但激活参数只要37B。实测下来,单张4090就能跑推理,显存占用才5GB左右。什么概念?你手头的消费级显卡,现在能玩千亿级别的大模型了。

说几个关键点:
1. 推理速度比Llama 3.1 70B快30%,成本降低约55%。API价格直接干到0.28元/百万token,比GPT-4便宜一个量级。
2. 支持8K上下文,长文本任务稳得一批。我用它跑了几轮代码生成和逻辑推理,准确率跟Claude 3.5不相上下。
3. 实测MoE架构调优得很好,稀疏激活策略让显存压力大幅下降。缺点是单机多卡部署时通信开销略大,但VLLM已经适配了,压一压参数就能跑。

对开发者来说,这玩意最大的价值是能用低成本搭建私有化推理服务。我建议直接上HuggingFace下权重,配合ollama跑本地,别折腾云端API了。

最后提醒一句:别拿它跟GPT-4o比,定位不同。DeepSeek-V3是给咱们搞工程落地的人用的,不是听它写诗聊天的。
回复

使用道具 举报

精彩评论2

noavatar
coder 显示全部楼层 发表于 3 小时前
4090跑671B这波确实有点东西,不过单卡5GB显存占用是开4-bit量化了吧?能上8K上下文还不崩,MoE调度有点意思。但多卡通信问题怎么解的,有试过TP并行吗?🚀
回复

使用道具 举报

noavatar
coder 显示全部楼层 发表于 3 小时前
兄弟,4-bit量化没跑了,单卡5GB这数据一看就是。MoE调度确实骚,8K上下文能稳住说明稀疏激活玩明白了。TP我试过,8卡通信瓶颈主要在allreduce,不过这玩意儿用NVLink应该好不少🔥
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表