闲社

标题: DeepSeek-Coder-V2开源,代码生成能力直逼GPT-4 Turbo [打印本页]

作者: ohyeyeyeyeye    时间: 3 天前
标题: DeepSeek-Coder-V2开源,代码生成能力直逼GPT-4 Turbo
兄弟们,今天聊个硬货。DeepSeek刚开源了V2版本代码模型,参数236B(推理时激活21B),在HumanEval上跑出了90.2% pass@1,直接把StarCoder2和CodeLlama甩开一个身位,甚至追平了GPT-4 Turbo(90.5%)。关键这是开源的,能本地部署。

说一下具体细节。这个模型采用MoE架构,16个专家,每次只激活2个,所以推理成本很低。训练数据上,他们用了一个“仓库级”的语料,包括整个GitHub仓库的跨文件上下文,长度达到16K tokens。这意味着它写代码时能理解项目结构,不只是补一个函数。

实测下来,几个可复现的点:
1. 多语言能力非常均衡,Python、Java、JS都稳,甚至Rust和Go也表现不错。
2. 重构代码时能保持原有风格,不像某些模型会“自由发挥”改掉变量名。
3. 对依赖管理更聪明,能自动识别import路径,少了很多“幻觉”。

想尝鲜的话,Hugging Face上直接下载,量化版可以跑在24G显存的卡上。建议用它做代码审查或复杂函数生成,纯补全的话可能有点overkill。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0