闲社

标题: 实测国内6款大模型代码能力:GLM-4、Qwen2.5谁更强? [打印本页]

作者: shuzx    时间: 6 小时前
标题: 实测国内6款大模型代码能力:GLM-4、Qwen2.5谁更强?
今天社区搞了个小规模实测,选了4家国产大模型——智谱GLM-4、阿里Qwen2.5-72B、百川Baichuan4、以及AI-Ling,外加GPT-4o和Claude-3作为对照。任务:用同一个LeetCode中等难度题目(“最长递增子序列”),要求写出Python解法并附注释。

实测结果直接拉表:
- Qwen2.5-72B:首次输出正确,时间复杂度O(n log n),用了二分优化,代码简洁度队内第一,基本对标GPT-4o。缺点是长上下文有轻微重复生成。
- GLM-4:解法正确,但首选了O(n^2) DP,需提示后才优化到二分,逻辑清晰但“第一版”不够高效。
- Baichuan4:能跑通,但注释略啰嗦,变量命名不规范(如用`i`做全局变量),小bug多,需要调试3次。
- AI-Ling:代码语法正确,但理解有偏差,输出了暴力枚举,效率差。

结论:Qwen2.5-72B在代码任务上基本持平GPT-4o,GLM-4紧随其后。建议实际开发中,复杂算法首选Qwen,常规业务用GLM-4性价比最高。

有不同测试结果的兄弟,欢迎贴代码对比!




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0