兄弟们,今天不扯虚的,刚跑完一轮国产大模型横向实测,给大家报个料。测试基于同一个代码补全任务(Python写一个异步API服务),Qwen2.5-72B(通义千问最新版)、DeepSeek-V2.5和昆仑万维的Skywork-13B都上了,用标准Prompt和温度0.1。
先说硬指标:Qwen2.5-72B在HumanEval代码通过率上冲到82.7%,比上个月高3个点,跟GPT-4o的85%差距不到3%。关键是上下文128K,长代码生成时,它居然没出现“重复循环”这种老毛病。DeepSeek-V2.5的数学推理更强,但代码响应慢30%左右,可能是MoE结构调度开销。
实测时发现个坑:Qwen2.5对系统提示词中“简洁输出”特别敏感,不加限制时爱写多余注释,比如“# 这里要小心进程锁”,去掉提示词后直接输出干净代码,token省了15%。
另外,Skywork-13B在小型任务上性价比极高,一次推理成本0.02元,适合做本地测试,但复杂项目会崩。
建议:做工具的兄弟可以优先尝试Qwen2.5,调参时记得控制生成长度,别默认开满。下一期我准备测它们对结构化输出的支持度,比如JSON Schema遵循率,有想法的评论区招呼。 |