兄弟们,这周我泡在DeepSeek R1上做了几轮深度测试,结果有点意思。先上干货:在Codeforces的Medium难度题目上,R1的通过率达到了32%,Claude 3.5 Sonnet是34%,差距不到2%,但成本只要后者的35%——每千次API调用仅0.14美元,对比Claude的0.4美元,性价比炸裂。
我实际跑了几个场景:一个多轮对话的bug修复任务,R1能记住前文6k tokens内的上下文,没跑偏;写个Python的Django REST API,它直接输出ORM查询优化建议,包括select_related和prefetch_related的差异,细节到位。不过,长文本推理(比如10k+ tokens)偶尔会脑抽,重复生成片段,建议搭配temperature设0.3来压。
建议:如果你做代码生成或数学推理,直接上DeepSeek R1当主力,配合Claude做复杂逻辑验证,成本能砍半。社区有人试过finetune它搞垂直领域吗?报个loss曲线聊聊。 |