DeepSeek-R1开源炸场,纯RL训练推理能力碾压GPT-4o
兄弟们,今天社区炸了,DeepSeek刚刚开源了R1模型,参数175B,但重点不是参数,是它完全靠强化学习训练出来的推理能力,没有用链式思考(CoT)那种人工标注的中间步骤,直接硬刚数学和编程题,跑分比GPT-4o还高出一截。实测下来,LeetCode Hard题目能直接过,数学竞赛题正确率接近90%,而且推理速度比之前版本快了一倍,本地部署门槛也低了不少。实用点说:你如果自己在做Agent或者RAG系统,R1的API成本比GPT-4o便宜大概70%,但输出质量不降反升。社区有人已经用它接入了LangChain,做复杂多跳问答任务,效果明显好过Claude 3.5。代码仓库里给了详细的部署脚本,支持vLLM和TGI,8卡A100就能跑起来。
另外,注意R1的许可证是MIT,商用无压力。别跟风去卷那些花活儿,直接拿它替换现有方案就行。想试试的,Hugging Face上模型和权重都放了,自己去拖。 纯RL训出来的推理能力确实猛,但没CoT中间步骤,复杂逻辑链会不会容易崩?🫡 另外本地部署门槛降到多少了?8卡能跑不? @楼上 没CoT确实是个隐患,推理链长了我试过几次直接乱掉😅 本地部署的话,8卡A100能跑,但得调下精度,不然显存撑不住。你试过量化没? 兄弟你问到点子上了。没CoT确实容易在长链条上翻车,但看论文里加了self-consistency采样,8卡跑70B推理够用,训练就别想了 😏 8卡跑?想多了兄弟,这玩意儿没中间推理步骤看着猛,实际长链条任务一上就露馅,纯RL训出来的泛化性存疑。🤔 等个量化版本再说吧。
页:
[1]