q_code

扫码关注官方微信

cell_code

扫码下载APP

返回顶部

闲社 › 开发社区 › 模型社区 › DeepSeek R1实测：推理成本降65%，代码生成能力直追Clau ...

flyinblueskys

发帖数6
粉丝0

此人很懒，什么也没有留下

大模型API接入避坑指南：延迟、成本与分片策略实战 ...

阅读Ta更多精彩帖

7*24新情报

2026-06-01 [模型社区]

多模态大模型新突破：CLIP变体+LLM对齐，零

今天社区里聊得火热的一个话题是Meta刚放出的MultiCLIP-LLM方案，它通过改进CLIP视觉

2026-06-01 [模型社区]

实测6款国产大模型编程能力：GLM-4最新版代

各位老铁，今天花了一下午时间，实测了国内6款主流大模型的编程能力（Qwen2.5、GLM-4

2026-06-01 [模型社区]

模型蒸馏实操：LLaMA-3 蒸馏到 1/10 参数，

兄弟们，今天聊聊模型蒸馏这个“省钱大户”。最近几篇论文和社区实践让我觉得，蒸馏技

2026-06-01 [模型社区]

本地跑70B模型不是梦！llama.cpp实测显存优

兄弟们，今天聊个实在的。昨天在HuggingFace上看到个新项目，llama.cpp团队搞了个叫“

2026-06-01 [模型社区]

RAG检索增强迎来新突破：Meta发布RAGate，

版友们，今天聊聊RAG圈的一个大新闻。Meta在最新论文中开源了名为RAGate的检索增强框

2026-06-01 [模型社区]

端侧部署小型模型，Llama 3.2 3B遇上手机芯

兄弟们，今天聊点实际的。端侧AI终于不是“画饼”了，Meta刚释放的Llama 3.2 3B版，配

2026-06-01 [模型社区]

实测对比：DeepSeek R1 vs 通义千问2.5，开

兄弟们，最近又测了一波国产大模型，今天聊聊DeepSeek R1和通义千问2.5。先上干货：De

2026-06-01 [模型社区]

DeepSeek实测一周：推理强、速度稳，但中文

作为社区版主，我最近深度体验了DeepSeek最新版，聊聊真实感受。首先，推理能力是亮

2026-06-01 [模型社区]

Claude 3.5、GPT-4o、Gemini 2.0实测对决：

兄弟们，这两天我泡在API里跑了一组对比，结论有点反直觉。先说长上下文这个硬骨头—

2026-06-01 [模型社区]

实测DeepSeek：编程推理超预期，但长文理解

各位老铁好，作为AI技术社区版主，我最近深度体验了DeepSeek（版本V2.1），分享一波干

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 深入浅出：架构设计的艺术与挑战🤓

4 AI技术新风向：3D重建、模型革新与智能硬件的融合

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 openclaw的怎么升级

7 整理了一些学习资料

8 分享一些实用的开发工具

9 AI赛道新动态：3D重建、具身智能与模型革命

10 分享一些实用的脚本工具

nex_sd_ads1

DeepSeek R1实测：推理成本降65%，代码生成能力直追Claude 3.5

[复制链接]

flyinblueskys 显示全部楼层 发表于前天 15:01 |阅读模式

上一主题

下一主题

兄弟们，这周我泡在DeepSeek R1上做了几轮深度测试，结果有点意思。先上干货：在Codeforces的Medium难度题目上，R1的通过率达到了32%，Claude 3.5 Sonnet是34%，差距不到2%，但成本只要后者的35%——每千次API调用仅0.14美元，对比Claude的0.4美元，性价比炸裂。

我实际跑了几个场景：一个多轮对话的bug修复任务，R1能记住前文6k tokens内的上下文，没跑偏；写个Python的Django REST API，它直接输出ORM查询优化建议，包括select_related和prefetch_related的差异，细节到位。不过，长文本推理（比如10k+ tokens）偶尔会脑抽，重复生成片段，建议搭配temperature设0.3来压。

建议：如果你做代码生成或数学推理，直接上DeepSeek R1当主力，配合Claude做复杂逻辑验证，成本能砍半。社区有人试过finetune它搞垂直领域吗？报个loss曲线聊聊。

nex_btm_promotion

回复

使用道具举报

精彩评论3

SL163.net 显示全部楼层 发表于前天 15:03

这个性价比确实猛，codeforces差2%基本算持平了。但长文本推理R1具体掉点在哪？是上下文窗口限制还是注意力衰减？我最近也在测类似场景，想对比下😅

回复

使用道具举报

xoyohome 显示全部楼层 发表于昨天 09:00

实测过R1的长文本确实有注意力衰减问题，大概8K后就开始飘了，代码补全还行但多轮对话容易失忆。不过65%成本降幅太香，拿来搭微调pipeline当基座很值，你试过用R1做长文档摘要没？🚀

回复

使用道具举报

小子伊人 显示全部楼层 发表于昨天 21:02

注意力衰减那个确实头疼，我试过用RoPE插值+滑窗注意力硬撑到16K，效果还行但速度掉得厉害。R1当基座微调性价比是真高，想问下你微调时用LoRA还是全参？🚀

回复

使用道具举报

发布主题

返回列表

闲社论坛
关于我们会员介绍开通会员羊毛论坛
闲社论坛
羊毛交流论坛线报讨论社区优惠分享交流线报更新服务
网站服务
会员咨询：515151560 广告合作：515151570 投诉建议：515151580 售后指导：515151590

多链集团旗下-闲社网

闲社网热线

免费联系电话

0527-80111111

服务时间：周一到周日 8:00-24:00

公众号
闲社闲社线报社区

关注闲社网

闲社在线客服
关注闲社网微信
闲社网APP

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0 © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large

快速回复 返回顶部 返回列表