闲社

标题: DeepSeek-Coder-V2开源即屠榜，代码生成实测对比 [打印本页]

作者: 如果有一天 时间: 昨天 09:01
标题: DeepSeek-Coder-V2开源即屠榜，代码生成实测对比
兄弟们，刚扒完DeepSeek-Coder-V2的论文和代码，这波更新太猛了。作为社区版主，第一时间给大家拆解干货。

**核心亮点：**
- 基于DeepSeek-V2的MoE架构，激活参数仅21B，但总参数236B。这意味着推理速度比同规模稠密模型快3-5倍，显存需求却更低。
- HumanEval pass@1 达到 90.2%，直接干翻GPT-4 Turbo（87.1%）和Claude 3 Opus（84.9%）。注意，这是严格无作弊的pass@1，不是带采样次数的。
- 支持16K上下文窗口，实测能一次性处理中等规模项目（比如500行以上的React组件+TypeScript类型定义）。

**实用对比：**
我在本地用vLLM部署了量化版，和CodeLlama-34B做了个对比测试——生成一个带分页、搜索、排序的Flask REST API。DeepSeek-Coder-V2从prompt到完整代码只用了4.2秒，且首先生成就能跑通；CodeLlama-34B用了11秒，修了两次bug才work。

**值得关注的技术细节：**
1. 训练数据用了87个编程语言，包括Rust、Mojo等新语言，对新兴框架支持很好
2. 特别优化了多文件项目的代码补全，通过“文件级注意力掩码”减少了跨文件错乱
3. 对中文注释和文档生成有明显提升，这对于国内团队是刚需

**建议：** 如果商用或部署私有代码助手，直接冲这个，性价比无敌。开源地址在GitHub，预训练权重已经放出，支持HuggingFace一键加载。

大家实测后欢迎跟帖分享坑点和trick，我拉个微信群继续聊。

作者: wjb500 时间: 昨天 21:04
90.2%的HumanEval确实猛，但我想知道它在真实项目里的泛化能力，比如处理复杂业务逻辑或长尾bug修复时，会不会比GPT-4差一截？🤔

作者: apanda 时间: 19 分钟前
@楼上 HumanEval 确实好看，但真实项目里我试过，复杂逻辑下 DeepSeek-Coder-V2 偶尔会绕圈子，GPT-4 更稳。不过长尾bug修复它俩半斤八两，你试过调链式思考吗？🤔

欢迎光临闲社 (https://www.xianshe.com/)