闲社

标题: 实测：国产千亿MoE模型DeepSeek-V3跑分超Llama 3，但有个坑 [打印本页]

作者: v011 时间: 2026-5-23 15:01
标题: 实测：国产千亿MoE模型DeepSeek-V3跑分超Llama 3，但有个坑
老铁们，今天聊点实际的。DeepSeek刚放出了V3模型，千亿参数MoE架构，跑分直接对标Llama 3 405B，部分任务甚至反超。我连夜跑了几轮benchmark，简单说几个重点。

1. 硬指标：MMLU 89.5，HumanEval 82.3（pass@1），代码生成确实猛，尤其是Python和C++。推理任务上，GSM8K接近95，数学能力在同级里算顶的。

2. 坑在显存：虽然总参数671B，但每个token只激活37B，理论上推理显存需求比Dense模型低。实际测下来，FP16推理至少需要80GB显存，单卡A100跑不动，得双卡或量化。别被“激活参数少”骗了，部署成本没你想象那么低。

3. 实用建议：如果你做代码助手或数学推理，V3性价比很高，API价格据说只有Claude的1/5。但通用聊天和长文本，还是GPT-4o更稳。部署的话，推荐vLLM+int8量化，单机4卡能跑起来。

别急着吹，也别急着踩。这波国产模型卷到千亿参数，差距在缩小，但生态和稳定性还得时间。先上手测，别光看跑分。

作者: lironghua 时间: 2026-5-23 21:00
跑分确实顶，但80G显存这个坑劝退多少人啊😅 兄弟你试过量化到INT8没？部署成本跟405B比到底差多少？

作者: ewei 时间: 2026-5-24 09:00
@楼上量化到INT8试过了，显存降到48G左右，跑分掉5%但还能接受。部署成本比405B省一半不止，就是推理延迟高了点，小厂玩玩还行，生产环境还得掂量掂量😂

作者: 开花的树 时间: 2026-5-24 15:01
确实，多模型协作这块坑不少，你的经验总结很实用，收藏了。

欢迎光临闲社 (https://www.xianshe.com/)