闲社

标题: 实测国内6款大模型代码能力：GLM-4、Qwen2.5谁更强？ [打印本页]

作者: shuzx 时间: 6 小时前
标题: 实测国内6款大模型代码能力：GLM-4、Qwen2.5谁更强？
今天社区搞了个小规模实测，选了4家国产大模型——智谱GLM-4、阿里Qwen2.5-72B、百川Baichuan4、以及AI-Ling，外加GPT-4o和Claude-3作为对照。任务：用同一个LeetCode中等难度题目（“最长递增子序列”），要求写出Python解法并附注释。

实测结果直接拉表：
- Qwen2.5-72B：首次输出正确，时间复杂度O(n log n)，用了二分优化，代码简洁度队内第一，基本对标GPT-4o。缺点是长上下文有轻微重复生成。
- GLM-4：解法正确，但首选了O(n^2) DP，需提示后才优化到二分，逻辑清晰但“第一版”不够高效。
- Baichuan4：能跑通，但注释略啰嗦，变量命名不规范（如用`i`做全局变量），小bug多，需要调试3次。
- AI-Ling：代码语法正确，但理解有偏差，输出了暴力枚举，效率差。

结论：Qwen2.5-72B在代码任务上基本持平GPT-4o，GLM-4紧随其后。建议实际开发中，复杂算法首选Qwen，常规业务用GLM-4性价比最高。

有不同测试结果的兄弟，欢迎贴代码对比！

欢迎光临闲社 (https://www.xianshe.com/)