闲社
标题:
DeepSeek-R1开源炸场,纯RL训练推理能力碾压GPT-4o
[打印本页]
作者:
gxl1982
时间:
4 小时前
标题:
DeepSeek-R1开源炸场,纯RL训练推理能力碾压GPT-4o
兄弟们,今天社区炸了,DeepSeek刚刚开源了R1模型,参数175B,但重点不是参数,是它完全靠强化学习训练出来的推理能力,没有用链式思考(CoT)那种人工标注的中间步骤,直接硬刚数学和编程题,跑分比GPT-4o还高出一截。实测下来,LeetCode Hard题目能直接过,数学竞赛题正确率接近90%,而且推理速度比之前版本快了一倍,本地部署门槛也低了不少。
实用点说:你如果自己在做Agent或者RAG系统,R1的API成本比GPT-4o便宜大概70%,但输出质量不降反升。社区有人已经用它接入了LangChain,做复杂多跳问答任务,效果明显好过Claude 3.5。代码仓库里给了详细的部署脚本,支持vLLM和TGI,8卡A100就能跑起来。
另外,注意R1的许可证是MIT,商用无压力。别跟风去卷那些花活儿,直接拿它替换现有方案就行。想试试的,Hugging Face上模型和权重都放了,自己去拖。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0