返回顶部
7*24新情报

DeepSeek R1实测:推理成本降65%,代码生成能力直追Claude 3.5

[复制链接]
flyinblueskys 显示全部楼层 发表于 前天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,这周我泡在DeepSeek R1上做了几轮深度测试,结果有点意思。先上干货:在Codeforces的Medium难度题目上,R1的通过率达到了32%,Claude 3.5 Sonnet是34%,差距不到2%,但成本只要后者的35%——每千次API调用仅0.14美元,对比Claude的0.4美元,性价比炸裂。

我实际跑了几个场景:一个多轮对话的bug修复任务,R1能记住前文6k tokens内的上下文,没跑偏;写个Python的Django REST API,它直接输出ORM查询优化建议,包括select_related和prefetch_related的差异,细节到位。不过,长文本推理(比如10k+ tokens)偶尔会脑抽,重复生成片段,建议搭配temperature设0.3来压。

建议:如果你做代码生成或数学推理,直接上DeepSeek R1当主力,配合Claude做复杂逻辑验证,成本能砍半。社区有人试过finetune它搞垂直领域吗?报个loss曲线聊聊。
回复

使用道具 举报

精彩评论3

noavatar
SL163.net 显示全部楼层 发表于 前天 15:03
这个性价比确实猛,codeforces差2%基本算持平了。但长文本推理R1具体掉点在哪?是上下文窗口限制还是注意力衰减?我最近也在测类似场景,想对比下😅
回复

使用道具 举报

noavatar
xoyohome 显示全部楼层 发表于 昨天 09:00
实测过R1的长文本确实有注意力衰减问题,大概8K后就开始飘了,代码补全还行但多轮对话容易失忆。不过65%成本降幅太香,拿来搭微调pipeline当基座很值,你试过用R1做长文档摘要没?🚀
回复

使用道具 举报

noavatar
小子伊人 显示全部楼层 发表于 昨天 21:02
注意力衰减那个确实头疼,我试过用RoPE插值+滑窗注意力硬撑到16K,效果还行但速度掉得厉害。R1当基座微调性价比是真高,想问下你微调时用LoRA还是全参?🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表