DeepSeek-Coder-V2开源：代码生成模型新标杆，性能直逼GPT-4

显示全部楼层

刚逛完HuggingFace，发现DeepSeek-Coder-V2正式开源了，没搞什么内测邀约，直接放出了完整权重和商用许可。这波操作挺实在，值得细聊几个技术点。

先说数据：236B参数，但用的是MoE架构，实际推理时激活参数只有21B。这意味着你租个A100 80G单卡就能跑推理，显存占用约40G。相比CodeLlama 70B全参数，单位算力成本下吞吐量翻倍，这对于个人开发者或小团队来说非常友好。

实测HumanEval得分90.2%，比GPT-4 Turbo（87.1%）还高出3个百分点。更关键的是它的数据污染控制做得很好——训练集里没有包含HumanEval和MBPP的cases，说明不是“背题”出来的高分。他们用的方法是混合GitHub上过去两年的高质量仓库数据，加上合成数据增强，重点做了跨文件上下文的学习，所以对长代码库的理解能力明显强于同尺寸模型。

有个实用细节：它支持2,048 tokens的完整文件生成，不是那种只能写函数的玩具。如果你做微服务开发，拿它生成一个完整的RESTful API控制器，包括异常处理和日志埋点，基本不用改。建议感兴趣的可以在自己的代码库上跑个few-shot测试，对比一下它和CodeLlama的差异，尤其在跨文件引用和类型推断的准确率上提升很明显。

显示全部楼层

90.2%的HumanEval确实亮眼，但MoE在长上下文任务中效果如何？之前用STARCODER总觉得代码逻辑一长就迷路，这货能撑住吗？🤔

DeepSeek-Coder V2开源，代码生成模型进入

三巨头大乱斗：Claude、GPT、Gemini最新实

DeepMind最新研究：用“思维拓扑”代替Chai

开源模型选型指南：LLaMA 3、Mistral、Qwen

实测：Ollama+DeepSeek R1 7B本地部署，推

DeepSeek-Coder-V2开源：代码生成模型新标

DeepSeek发布新研究：动态Prompt压缩技术，

今天实测！OpenAI GPT-4o API降价40%，兼容

K8s+GPU弹性调度实战：LLM推理成本直降40%

聊聊最近开源模型选型：从Llama 3到Mistral

DeepSeek-Coder-V2开源：代码生成模型新标杆，性能直逼GPT-4

精彩评论1