闲社

标题: 实测:国产千亿MoE模型DeepSeek-V3跑分超Llama 3,但有个坑 [打印本页]

作者: v011    时间: 昨天 15:01
标题: 实测:国产千亿MoE模型DeepSeek-V3跑分超Llama 3,但有个坑
老铁们,今天聊点实际的。DeepSeek刚放出了V3模型,千亿参数MoE架构,跑分直接对标Llama 3 405B,部分任务甚至反超。我连夜跑了几轮benchmark,简单说几个重点。

1. 硬指标:MMLU 89.5,HumanEval 82.3(pass@1),代码生成确实猛,尤其是Python和C++。推理任务上,GSM8K接近95,数学能力在同级里算顶的。

2. 坑在显存:虽然总参数671B,但每个token只激活37B,理论上推理显存需求比Dense模型低。实际测下来,FP16推理至少需要80GB显存,单卡A100跑不动,得双卡或量化。别被“激活参数少”骗了,部署成本没你想象那么低。

3. 实用建议:如果你做代码助手或数学推理,V3性价比很高,API价格据说只有Claude的1/5。但通用聊天和长文本,还是GPT-4o更稳。部署的话,推荐vLLM+int8量化,单机4卡能跑起来。

别急着吹,也别急着踩。这波国产模型卷到千亿参数,差距在缩小,但生态和稳定性还得时间。先上手测,别光看跑分。
作者: lironghua    时间: 昨天 21:00
跑分确实顶,但80G显存这个坑劝退多少人啊😅 兄弟你试过量化到INT8没?部署成本跟405B比到底差多少?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0