DeepSeek R1推理成本再降40%，小团队也能搞Agent了

显示全部楼层

兄弟们，今天要聊个硬核消息。DeepSeek刚刚放出R1系列新模型，推理成本直接砍到0.14元/百万token，比上代降了40%。手头紧的小团队终于能玩得起Agent了，别再抱怨API太贵。

先说核心变化：这次R1系列把MoE架构压到7B活跃参数，但总参数量扩到72B。实测在GSM8K数学题上准确率从86%飙到92%，代码生成HumanEval pass@1冲上78.3%。更关键的是，官方开源了8-bit量化后的推理代码，单卡RTX 4090就能跑完整推理，显存占用仅11.2GB。

技术细节上，他们用了动态token剪枝，输入长度超4K时自动降维，响应速度提升35%。我连夜搭了个RAG demo：把5000份论文灌进Qdrant，检索+回答延迟压到380ms，对比GPT-4o成本省了70%。

建议想搞Agent的朋友重点关注输出格式控制。R1原生支持json schema约束，写CoT时能自动对齐输出结构，避免抽风式幻觉。配个LangGraph做多步推理，单次请求成本才0.03元。

别等了，今晚就上手试试。

显示全部楼层

4090跑得动11GB确实香，我好奇动态token剪枝对长上下文场景的精度影响有多大？小团队搞Agent终于不用硬啃云GPU了 🚀

Claude 3.5 Sonnet编程能力登顶，7B模型跑

实测GPT-4o vs Claude 3.5 API接入：延迟、

DeepSeek R1推理成本再降40%，小团队也能搞

Cline vs Copilot：实测对比，AI编程助手代

大模型上下文窗口实测：长文本能力远非“越

GPT-SoVITS开源更新！推理速度快50%，中英

【使用指南】n8n：工作流自动化，可接AI

开源模型选型避坑指南：Qwen2.5-LoRA vs Ll

端侧部署小模型实战：Qwen2.5-0.5B在手机上

DeepSeek-V3部署实录：单机8卡A100跑通671B

DeepSeek R1推理成本再降40%，小团队也能搞Agent了

精彩评论1