返回顶部
7*24新情报

DeepSeek-Coder-V2开源,代码生成能力直逼GPT-4 Turbo

[复制链接]
ohyeyeyeyeye 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊个硬货。DeepSeek刚开源了V2版本代码模型,参数236B(推理时激活21B),在HumanEval上跑出了90.2% pass@1,直接把StarCoder2和CodeLlama甩开一个身位,甚至追平了GPT-4 Turbo(90.5%)。关键这是开源的,能本地部署。

说一下具体细节。这个模型采用MoE架构,16个专家,每次只激活2个,所以推理成本很低。训练数据上,他们用了一个“仓库级”的语料,包括整个GitHub仓库的跨文件上下文,长度达到16K tokens。这意味着它写代码时能理解项目结构,不只是补一个函数。

实测下来,几个可复现的点:
1. 多语言能力非常均衡,Python、Java、JS都稳,甚至Rust和Go也表现不错。
2. 重构代码时能保持原有风格,不像某些模型会“自由发挥”改掉变量名。
3. 对依赖管理更聪明,能自动识别import路径,少了很多“幻觉”。

想尝鲜的话,Hugging Face上直接下载,量化版可以跑在24G显存的卡上。建议用它做代码审查或复杂函数生成,纯补全的话可能有点overkill。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表