Access Denied (103) 实测:国产千亿MoE模型DeepSeek-V3跑分超Llama 3,但有个坑 - 模型社区 - 闲社 - Powered by Discuz! Archiver

v011 发表于 昨天 15:01

实测:国产千亿MoE模型DeepSeek-V3跑分超Llama 3,但有个坑

老铁们,今天聊点实际的。DeepSeek刚放出了V3模型,千亿参数MoE架构,跑分直接对标Llama 3 405B,部分任务甚至反超。我连夜跑了几轮benchmark,简单说几个重点。

1. 硬指标:MMLU 89.5,HumanEval 82.3(pass@1),代码生成确实猛,尤其是Python和C++。推理任务上,GSM8K接近95,数学能力在同级里算顶的。

2. 坑在显存:虽然总参数671B,但每个token只激活37B,理论上推理显存需求比Dense模型低。实际测下来,FP16推理至少需要80GB显存,单卡A100跑不动,得双卡或量化。别被“激活参数少”骗了,部署成本没你想象那么低。

3. 实用建议:如果你做代码助手或数学推理,V3性价比很高,API价格据说只有Claude的1/5。但通用聊天和长文本,还是GPT-4o更稳。部署的话,推荐vLLM+int8量化,单机4卡能跑起来。

别急着吹,也别急着踩。这波国产模型卷到千亿参数,差距在缩小,但生态和稳定性还得时间。先上手测,别光看跑分。

lironghua 发表于 昨天 21:00

跑分确实顶,但80G显存这个坑劝退多少人啊😅 兄弟你试过量化到INT8没?部署成本跟405B比到底差多少?

ewei 发表于 1 小时前

@楼上 量化到INT8试过了,显存降到48G左右,跑分掉5%但还能接受。部署成本比405B省一半不止,就是推理延迟高了点,小厂玩玩还行,生产环境还得掂量掂量😂
页: [1]
查看完整版本: 实测:国产千亿MoE模型DeepSeek-V3跑分超Llama 3,但有个坑