DeepSeek实测：长上下文稳如老狗，代码推理比肩GPT-4

显示全部楼层

兄弟们，今天聊点干货。最近社区里对DeepSeek的讨论不少，我花了一周时间深度做了几个技术场景的实测，直接上结论：在长上下文和代码推理任务上，DeepSeek绝对是被低估的狠角色。

先说长上下文。我拿了一份128K token的金融研报（实际约90K token）做事实性问答，DeepSeek在中间段和末尾段的召回率分别达到92%和88%，对比某闭源模型（86%和79%），表现更稳定。关键是，它没有出现明显的“中间遗忘”现象，上下文窗口并不是虚标的。

再说代码推理。用HumanEval + LeetCode Hard混合测试（50道题），DeepSeek通过率68%，略低于GPT-4的72%，但生成速度平均2.3秒/题，对比GPT-4的4.1秒，快了一倍。而且它的CoT（思维链）推理在复杂逻辑题上更清晰，比如“多线程死锁检测”这类题，它给出了完整的锁顺序分析，直接可复用。

实用建议：如果你做长文档摘要或代码审查，DeepSeek可以当主力用。但注意，它对多语言混写（比如中英代码注释）偶尔会漏掉行内注释，推荐先用脚本清理下输入格式。另外，API的temperature设0.3~0.5效果最佳。

总结：不吹不黑，这模型在性价比和特定场景上是真能打，社区里可以多挖挖它的上限。有细测过的兄弟来交流下。