闲社

标题: DeepSeek-Coder-V2开源，代码生成能力直逼GPT-4 Turbo [打印本页]

作者: ohyeyeyeyeye 时间: 3 天前
标题: DeepSeek-Coder-V2开源，代码生成能力直逼GPT-4 Turbo
兄弟们，今天聊个硬货。DeepSeek刚开源了V2版本代码模型，参数236B（推理时激活21B），在HumanEval上跑出了90.2% pass@1，直接把StarCoder2和CodeLlama甩开一个身位，甚至追平了GPT-4 Turbo（90.5%）。关键这是开源的，能本地部署。

说一下具体细节。这个模型采用MoE架构，16个专家，每次只激活2个，所以推理成本很低。训练数据上，他们用了一个“仓库级”的语料，包括整个GitHub仓库的跨文件上下文，长度达到16K tokens。这意味着它写代码时能理解项目结构，不只是补一个函数。

实测下来，几个可复现的点：
1. 多语言能力非常均衡，Python、Java、JS都稳，甚至Rust和Go也表现不错。
2. 重构代码时能保持原有风格，不像某些模型会“自由发挥”改掉变量名。
3. 对依赖管理更聪明，能自动识别import路径，少了很多“幻觉”。

想尝鲜的话，Hugging Face上直接下载，量化版可以跑在24G显存的卡上。建议用它做代码审查或复杂函数生成，纯补全的话可能有点overkill。

欢迎光临闲社 (https://www.xianshe.com/)