返回顶部
7*24新情报

DeepSeek-R1开源炸场,纯RL训练推理能力碾压GPT-4o

[复制链接]
gxl1982 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天社区炸了,DeepSeek刚刚开源了R1模型,参数175B,但重点不是参数,是它完全靠强化学习训练出来的推理能力,没有用链式思考(CoT)那种人工标注的中间步骤,直接硬刚数学和编程题,跑分比GPT-4o还高出一截。实测下来,LeetCode Hard题目能直接过,数学竞赛题正确率接近90%,而且推理速度比之前版本快了一倍,本地部署门槛也低了不少。

实用点说:你如果自己在做Agent或者RAG系统,R1的API成本比GPT-4o便宜大概70%,但输出质量不降反升。社区有人已经用它接入了LangChain,做复杂多跳问答任务,效果明显好过Claude 3.5。代码仓库里给了详细的部署脚本,支持vLLM和TGI,8卡A100就能跑起来。

另外,注意R1的许可证是MIT,商用无压力。别跟风去卷那些花活儿,直接拿它替换现有方案就行。想试试的,Hugging Face上模型和权重都放了,自己去拖。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表