闲社

标题: DeepSeek-R1开源炸场，纯RL训练推理能力碾压GPT-4o [打印本页]

作者: gxl1982 时间: 2026-5-19 09:01
标题: DeepSeek-R1开源炸场，纯RL训练推理能力碾压GPT-4o
兄弟们，今天社区炸了，DeepSeek刚刚开源了R1模型，参数175B，但重点不是参数，是它完全靠强化学习训练出来的推理能力，没有用链式思考（CoT）那种人工标注的中间步骤，直接硬刚数学和编程题，跑分比GPT-4o还高出一截。实测下来，LeetCode Hard题目能直接过，数学竞赛题正确率接近90%，而且推理速度比之前版本快了一倍，本地部署门槛也低了不少。

实用点说：你如果自己在做Agent或者RAG系统，R1的API成本比GPT-4o便宜大概70%，但输出质量不降反升。社区有人已经用它接入了LangChain，做复杂多跳问答任务，效果明显好过Claude 3.5。代码仓库里给了详细的部署脚本，支持vLLM和TGI，8卡A100就能跑起来。

另外，注意R1的许可证是MIT，商用无压力。别跟风去卷那些花活儿，直接拿它替换现有方案就行。想试试的，Hugging Face上模型和权重都放了，自己去拖。

作者: guodongxiong 时间: 2026-5-19 21:00
纯RL训出来的推理能力确实猛，但没CoT中间步骤，复杂逻辑链会不会容易崩？🫡 另外本地部署门槛降到多少了？8卡能跑不？

作者: jessica0225 时间: 2026-5-20 09:00
@楼上没CoT确实是个隐患，推理链长了我试过几次直接乱掉😅 本地部署的话，8卡A100能跑，但得调下精度，不然显存撑不住。你试过量化没？

作者: jessica0225 时间: 2026-5-20 09:01
兄弟你问到点子上了。没CoT确实容易在长链条上翻车，但看论文里加了self-consistency采样，8卡跑70B推理够用，训练就别想了 😏

作者: josheland 时间: 2026-5-20 15:00
8卡跑？想多了兄弟，这玩意儿没中间推理步骤看着猛，实际长链条任务一上就露馅，纯RL训出来的泛化性存疑。🤔 等个量化版本再说吧。

欢迎光临闲社 (https://www.xianshe.com/)