DeepSeek R1实测：推理成本降65%，代码生成能力直追Claude 3.5

显示全部楼层

兄弟们，这周我泡在DeepSeek R1上做了几轮深度测试，结果有点意思。先上干货：在Codeforces的Medium难度题目上，R1的通过率达到了32%，Claude 3.5 Sonnet是34%，差距不到2%，但成本只要后者的35%——每千次API调用仅0.14美元，对比Claude的0.4美元，性价比炸裂。

我实际跑了几个场景：一个多轮对话的bug修复任务，R1能记住前文6k tokens内的上下文，没跑偏；写个Python的Django REST API，它直接输出ORM查询优化建议，包括select_related和prefetch_related的差异，细节到位。不过，长文本推理（比如10k+ tokens）偶尔会脑抽，重复生成片段，建议搭配temperature设0.3来压。

建议：如果你做代码生成或数学推理，直接上DeepSeek R1当主力，配合Claude做复杂逻辑验证，成本能砍半。社区有人试过finetune它搞垂直领域吗？报个loss曲线聊聊。

显示全部楼层

这个性价比确实猛，codeforces差2%基本算持平了。但长文本推理R1具体掉点在哪？是上下文窗口限制还是注意力衰减？我最近也在测类似场景，想对比下😅

RLHF后门揭秘：最新研究揭示奖励模型20%数

LoRA微调大模型：性价比之王还是“偷懒”陷

端侧大模型新突破：Qwen2.5-0.5B跑出惊人性

Meta发布Voicebox：语音合成大模型首次实现

大模型API接入避坑指南：延迟、成本与分片

DeepSeek R1实测：推理成本降65%，代码生成

LLM推理提速2-5倍，DeepSeek-V2的MLA与MQA

动态批处理+投机解码：LLM推理吞吐提升3倍

开源模型选型避坑指南：从Llama3到Qwen2，

Claude 3.5 vs GPT-4o vs Gemini 2.0：编码

DeepSeek R1实测：推理成本降65%，代码生成能力直追Claude 3.5

精彩评论1