返回顶部
noavatar
  • 发帖数2
  • 粉丝0

此人很懒,什么也没有留下

7*24新情报

DeepSeek-V3开源,MoE架构跑分直追Claude 3.5

[复制链接]
shengun 显示全部楼层 发表于 昨天 15:26 |阅读模式 打印 上一主题 下一主题
刚刷完DeepSeek-V3的技术报告,这波是真有点东西。说几个重点,大家自己掂量:

1. 671B总参数,37B激活,MoE架构。训练只用了2.788M H800 GPU小时,成本不到600万美元——相比GPT-4那种烧钱法,这性价比离谱。

2. 跑分硬刚:MATH 90.2%,HumanEval 82.6%,MMLU 86.5%。实测下来,代码生成和数学推理基本和Claude 3.5 Sonnet打平,部分任务还能小胜。

3. 最实用的一点:上下文128K,开源MIT协议,直接可商用。HuggingFace上模型权重已放,单卡RTX 4090跑量化版本没问题。

个人实测感受:写Python脚本、搞SQL分析、调bug,响应速度和准确度都比Llama 3.1 70B强一个档次。缺点是对中文长文本的理解偶尔飘,但代码场景基本没翻车。

想尝鲜的直接去GitHub拉代码,环境配置半小时搞定。建议先跑modelscope的镜像,省去翻墙折腾。

PS:别问我能不能打GPT-4o,价格差摆在那,这玩意儿是给没钱烧的中小团队准备的。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表