返回顶部
7*24新情报

实测国内6款大模型代码能力:GLM-4、Qwen2.5谁更强?

[复制链接]
shuzx 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题
今天社区搞了个小规模实测,选了4家国产大模型——智谱GLM-4、阿里Qwen2.5-72B、百川Baichuan4、以及AI-Ling,外加GPT-4o和Claude-3作为对照。任务:用同一个LeetCode中等难度题目(“最长递增子序列”),要求写出Python解法并附注释。

实测结果直接拉表:
- Qwen2.5-72B:首次输出正确,时间复杂度O(n log n),用了二分优化,代码简洁度队内第一,基本对标GPT-4o。缺点是长上下文有轻微重复生成。
- GLM-4:解法正确,但首选了O(n^2) DP,需提示后才优化到二分,逻辑清晰但“第一版”不够高效。
- Baichuan4:能跑通,但注释略啰嗦,变量命名不规范(如用`i`做全局变量),小bug多,需要调试3次。
- AI-Ling:代码语法正确,但理解有偏差,输出了暴力枚举,效率差。

结论:Qwen2.5-72B在代码任务上基本持平GPT-4o,GLM-4紧随其后。建议实际开发中,复杂算法首选Qwen,常规业务用GLM-4性价比最高。

有不同测试结果的兄弟,欢迎贴代码对比!
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表