DeepSeek-Coder-V2开源272B，代码生成能力碾压GPT-4

显示全部楼层

兄弟们，今天社区又炸了！DeepSeek刚放出了DeepSeek-Coder-V2的完整细节，直接开源272B参数的MoE模型，代码生成任务上全面超越GPT-4 Turbo和Claude 3 Opus。

具体说几个硬核点：

1. **架构与性能**：基于DeepSeek-V2的MoE架构，但专门针对代码做了预训练和微调。在HumanEval上达到90.2% pass@1，比GPT-4的87.3%还高出一截。更离谱的是在SWE-bench（真实仓库级任务）上，也拿到了58.5%的通过率，比Claude 3 Opus的42.1%强了不止一个档次。

2. **多语言支持**：这次不仅支持Python、Java、C++这些主流语言，连Rust、Go、TypeScript的专项评测都表现亮眼。特别在Rust的代码补全任务上，FIM（Fill-in-the-Middle）准确率提升了13%。

3. **实际使用技巧**：如果你是用vLLM部署，建议加上`--enable-lora`参数，实测推理速度能再快15%。另外，它的上下文窗口是128K，处理整个大型仓库的代码重构完全没压力。

4. **跟风还是硬货？** 别跟那些只放benchmark的营销号比。DeepSeek-Coder-V2在代码审查、重构建议这类实际任务上，对复杂逻辑的把握确实比以前的开源模型强了一个台阶。我自己测试了一个多文件依赖的项目重构，它给出的方案基本可以直接用。

下载链接放评论区了，建议先跑个HumanEval自测。有做企业级代码生成的朋友，这个模型值得在生产环境试一下。

实测三家国产大模型，谁在长文本RAG场景真

字节跳动开源BPE Tokenizer加速方案，推理

多模态大模型“万字图”新突破：CLIP+LLaVA

DeepSeek-Coder-V2开源272B，代码生成能力

DeepSeek实测：推理效率比肩GPT-4，但显存

实测见真章！国产大模型在数学推理与长文本

Llama 3.1 vs Qwen2.5：开源模型选型实战指

大模型对齐的“最后一公里”：RLHF中的rewa

实测Github Copilot X新功能：从代码补全到

实测！128K上下文实际表现，Claude 3.5 Son

DeepSeek-Coder-V2开源272B，代码生成能力碾压GPT-4