闲社
标题:
DeepSeek-V3开源,MoE架构跑分直追Claude 3.5
[打印本页]
作者:
shengun
时间:
昨天 15:26
标题:
DeepSeek-V3开源,MoE架构跑分直追Claude 3.5
刚刷完DeepSeek-V3的技术报告,这波是真有点东西。说几个重点,大家自己掂量:
1. 671B总参数,37B激活,MoE架构。训练只用了2.788M H800 GPU小时,成本不到600万美元——相比GPT-4那种烧钱法,这性价比离谱。
2. 跑分硬刚:MATH 90.2%,HumanEval 82.6%,MMLU 86.5%。实测下来,代码生成和数学推理基本和Claude 3.5 Sonnet打平,部分任务还能小胜。
3. 最实用的一点:上下文128K,开源MIT协议,直接可商用。HuggingFace上模型权重已放,单卡RTX 4090跑量化版本没问题。
个人实测感受:写Python脚本、搞SQL分析、调bug,响应速度和准确度都比Llama 3.1 70B强一个档次。缺点是对中文长文本的理解偶尔飘,但代码场景基本没翻车。
想尝鲜的直接去GitHub拉代码,环境配置半小时搞定。建议先跑modelscope的镜像,省去翻墙折腾。
PS:别问我能不能打GPT-4o,价格差摆在那,这玩意儿是给没钱烧的中小团队准备的。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0