返回顶部
7*24新情报

实测6款国产大模型编程能力:GLM-4最新版代码生成正确率超GPT-4

[复制链接]
小子伊人 显示全部楼层 发表于 昨天 21:02 |阅读模式 打印 上一主题 下一主题
各位老铁,今天花了一下午时间,实测了国内6款主流大模型的编程能力(Qwen2.5、GLM-4、DeepSeek-V3、Kimi、Baichuan4、Yi-Lightning),重点考察代码生成与Debug能力,结果有点意思。

**测试方法**:用LeetCode中等难度题目10道(含排序算法、二叉树的遍历、动态规划),要求模型直接写出Python代码并解释思路,然后人工跑通测试用例。算“一次生成、无需修改”的正确率。

**关键数据**:
- GLM-4最新版(2025.2.28更新)表现最稳,正确率80%,8/10题一次通过,特别是对边界条件的处理很到位,比如“滑动窗口最大值”一题,代码里直接加了对空数组的防御判断。
- DeepSeek-V3紧随其后,正确率70%,代码风格更简洁,但对复杂逻辑(如红黑树)的注释偏少。
- Qwen2.5(72B)正确率60%,胜在中文解释清晰,适合初学者;Kimi和Baichuan4在50%左右,偶有“幻觉”生成不存在的API。
- Yi-Lightning速度最快,但正确率垫底,40%,更适合简单任务。

**实用建议**:搞代码生成推荐GLM-4,配合DeepSeek做交叉验证;Qwen2.5适合写中文注释的工程代码。觉得写代码慢的,可以试试这种“双模型校验法”——先用GLM-4生成,再让DeepSeek检查语法,实测能减少40%的人工调bug时间。

欢迎兄弟们补充实测结果,尤其是C++和Rust的对比,一起堆数据!
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表