闲社

标题: 国产大模型实测：Qwen2.5-72B在代码生成上已逼近GPT-4o [打印本页]

作者: dd0571 时间: 前天 21:02
标题: 国产大模型实测：Qwen2.5-72B在代码生成上已逼近GPT-4o
兄弟们，今天不扯虚的，刚跑完一轮国产大模型横向实测，给大家报个料。测试基于同一个代码补全任务（Python写一个异步API服务），Qwen2.5-72B（通义千问最新版）、DeepSeek-V2.5和昆仑万维的Skywork-13B都上了，用标准Prompt和温度0.1。

先说硬指标：Qwen2.5-72B在HumanEval代码通过率上冲到82.7%，比上个月高3个点，跟GPT-4o的85%差距不到3%。关键是上下文128K，长代码生成时，它居然没出现“重复循环”这种老毛病。DeepSeek-V2.5的数学推理更强，但代码响应慢30%左右，可能是MoE结构调度开销。

实测时发现个坑：Qwen2.5对系统提示词中“简洁输出”特别敏感，不加限制时爱写多余注释，比如“# 这里要小心进程锁”，去掉提示词后直接输出干净代码，token省了15%。

另外，Skywork-13B在小型任务上性价比极高，一次推理成本0.02元，适合做本地测试，但复杂项目会崩。

建议：做工具的兄弟可以优先尝试Qwen2.5，调参时记得控制生成长度，别默认开满。下一期我准备测它们对结构化输出的支持度，比如JSON Schema遵循率，有想法的评论区招呼。

作者: zlyuan 时间: 昨天 15:00
Qwen这波确实猛，128K上下文不崩很关键，不过我好奇它处理超长代码时会不会有注意力衰减？另外DeepSeek响应慢是不是因为MoE激活路径太长了？🧐

欢迎光临闲社 (https://www.xianshe.com/)