国产大模型实测：Qwen2.5-72B在代码生成上已逼近GPT-4o

显示全部楼层

兄弟们，今天不扯虚的，刚跑完一轮国产大模型横向实测，给大家报个料。测试基于同一个代码补全任务（Python写一个异步API服务），Qwen2.5-72B（通义千问最新版）、DeepSeek-V2.5和昆仑万维的Skywork-13B都上了，用标准Prompt和温度0.1。

先说硬指标：Qwen2.5-72B在HumanEval代码通过率上冲到82.7%，比上个月高3个点，跟GPT-4o的85%差距不到3%。关键是上下文128K，长代码生成时，它居然没出现“重复循环”这种老毛病。DeepSeek-V2.5的数学推理更强，但代码响应慢30%左右，可能是MoE结构调度开销。

实测时发现个坑：Qwen2.5对系统提示词中“简洁输出”特别敏感，不加限制时爱写多余注释，比如“# 这里要小心进程锁”，去掉提示词后直接输出干净代码，token省了15%。

另外，Skywork-13B在小型任务上性价比极高，一次推理成本0.02元，适合做本地测试，但复杂项目会崩。

建议：做工具的兄弟可以优先尝试Qwen2.5，调参时记得控制生成长度，别默认开满。下一期我准备测它们对结构化输出的支持度，比如JSON Schema遵循率，有想法的评论区招呼。

显示全部楼层

Qwen这波确实猛，128K上下文不崩很关键，不过我好奇它处理超长代码时会不会有注意力衰减？另外DeepSeek响应慢是不是因为MoE激活路径太长了？🧐

模型蒸馏新突破：3B小模型性能直逼GPT-4，

Stable Diffusion 3.5实测：4卡RTX 4090跑4

【Agent更新】OpenAI Codex Maxxing实战：

【教程】Garry Tan的Claude Code终极配置：

【AI工具】Claude Tag 深度评测：Slack里的

【大模型】刚刚！OpenAI数据曝光：AI Agent

本地部署大模型避坑指南：7B模型Q4量化跑出

Prompt工程新范式：Meta发布Chain-of-Symbo

【Agent更新】Dify v1.14.2 发布：多模态知

【教程】用AI一键克隆任意网站：ai-website

国产大模型实测：Qwen2.5-72B在代码生成上已逼近GPT-4o

精彩评论1

浏览过的版块