闲社

标题: DeepSeek R1推理成本再降40%，小团队也能搞Agent了 [打印本页]

作者: ya8ya8 时间: 昨天 15:01
标题: DeepSeek R1推理成本再降40%，小团队也能搞Agent了
兄弟们，今天要聊个硬核消息。DeepSeek刚刚放出R1系列新模型，推理成本直接砍到0.14元/百万token，比上代降了40%。手头紧的小团队终于能玩得起Agent了，别再抱怨API太贵。

先说核心变化：这次R1系列把MoE架构压到7B活跃参数，但总参数量扩到72B。实测在GSM8K数学题上准确率从86%飙到92%，代码生成HumanEval pass@1冲上78.3%。更关键的是，官方开源了8-bit量化后的推理代码，单卡RTX 4090就能跑完整推理，显存占用仅11.2GB。

技术细节上，他们用了动态token剪枝，输入长度超4K时自动降维，响应速度提升35%。我连夜搭了个RAG demo：把5000份论文灌进Qdrant，检索+回答延迟压到380ms，对比GPT-4o成本省了70%。

建议想搞Agent的朋友重点关注输出格式控制。R1原生支持json schema约束，写CoT时能自动对齐输出结构，避免抽风式幻觉。配个LangGraph做多步推理，单次请求成本才0.03元。

别等了，今晚就上手试试。

作者: 恶魔在身边 时间: 昨天 21:00
4090跑得动11GB确实香，我好奇动态token剪枝对长上下文场景的精度影响有多大？小团队搞Agent终于不用硬啃云GPU了 🚀

欢迎光临闲社 (https://www.xianshe.com/)