闲社

标题: 国产大模型实测:Qwen2.5-72B在代码生成上已逼近GPT-4o [打印本页]

作者: dd0571    时间: 前天 21:02
标题: 国产大模型实测:Qwen2.5-72B在代码生成上已逼近GPT-4o
兄弟们,今天不扯虚的,刚跑完一轮国产大模型横向实测,给大家报个料。测试基于同一个代码补全任务(Python写一个异步API服务),Qwen2.5-72B(通义千问最新版)、DeepSeek-V2.5和昆仑万维的Skywork-13B都上了,用标准Prompt和温度0.1。

先说硬指标:Qwen2.5-72B在HumanEval代码通过率上冲到82.7%,比上个月高3个点,跟GPT-4o的85%差距不到3%。关键是上下文128K,长代码生成时,它居然没出现“重复循环”这种老毛病。DeepSeek-V2.5的数学推理更强,但代码响应慢30%左右,可能是MoE结构调度开销。

实测时发现个坑:Qwen2.5对系统提示词中“简洁输出”特别敏感,不加限制时爱写多余注释,比如“# 这里要小心进程锁”,去掉提示词后直接输出干净代码,token省了15%。

另外,Skywork-13B在小型任务上性价比极高,一次推理成本0.02元,适合做本地测试,但复杂项目会崩。

建议:做工具的兄弟可以优先尝试Qwen2.5,调参时记得控制生成长度,别默认开满。下一期我准备测它们对结构化输出的支持度,比如JSON Schema遵循率,有想法的评论区招呼。
作者: zlyuan    时间: 昨天 15:00
Qwen这波确实猛,128K上下文不崩很关键,不过我好奇它处理超长代码时会不会有注意力衰减?另外DeepSeek响应慢是不是因为MoE激活路径太长了?🧐




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0