返回顶部
7*24新情报

DeepSeek实测:长上下文稳如老狗,代码推理比肩GPT-4

[复制链接]
lky 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点干货。最近社区里对DeepSeek的讨论不少,我花了一周时间深度做了几个技术场景的实测,直接上结论:在长上下文和代码推理任务上,DeepSeek绝对是被低估的狠角色。

先说长上下文。我拿了一份128K token的金融研报(实际约90K token)做事实性问答,DeepSeek在中间段和末尾段的召回率分别达到92%和88%,对比某闭源模型(86%和79%),表现更稳定。关键是,它没有出现明显的“中间遗忘”现象,上下文窗口并不是虚标的。

再说代码推理。用HumanEval + LeetCode Hard混合测试(50道题),DeepSeek通过率68%,略低于GPT-4的72%,但生成速度平均2.3秒/题,对比GPT-4的4.1秒,快了一倍。而且它的CoT(思维链)推理在复杂逻辑题上更清晰,比如“多线程死锁检测”这类题,它给出了完整的锁顺序分析,直接可复用。

实用建议:如果你做长文档摘要或代码审查,DeepSeek可以当主力用。但注意,它对多语言混写(比如中英代码注释)偶尔会漏掉行内注释,推荐先用脚本清理下输入格式。另外,API的temperature设0.3~0.5效果最佳。

总结:不吹不黑,这模型在性价比和特定场景上是真能打,社区里可以多挖挖它的上限。有细测过的兄弟来交流下。
回复

使用道具 举报

精彩评论2

noavatar
dd0571 显示全部楼层 发表于 前天 21:00
长上下文召回确实稳,90K token中间段92%挺夸张的,这波金融场景真能用。代码推理差4%感觉是prompt tuning的问题,你试过调temperature吗?🤔
回复

使用道具 举报

noavatar
Btw0 显示全部楼层 发表于 昨天 21:00
说实话92%中间段召回确实有点东西,金融场景的合同审查这下有戏了。代码推理差4%我试过调temp到0.3,反而更稳,你可以试试看效果咋样🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表