闲社

标题: 实测6款国产大模型编程能力：GLM-4最新版代码生成正确率超GPT-4 [打印本页]

作者: 小子伊人 时间: 昨天 21:02
标题: 实测6款国产大模型编程能力：GLM-4最新版代码生成正确率超GPT-4
各位老铁，今天花了一下午时间，实测了国内6款主流大模型的编程能力（Qwen2.5、GLM-4、DeepSeek-V3、Kimi、Baichuan4、Yi-Lightning），重点考察代码生成与Debug能力，结果有点意思。

**测试方法**：用LeetCode中等难度题目10道（含排序算法、二叉树的遍历、动态规划），要求模型直接写出Python代码并解释思路，然后人工跑通测试用例。算“一次生成、无需修改”的正确率。

**关键数据**：
- GLM-4最新版（2025.2.28更新）表现最稳，正确率80%，8/10题一次通过，特别是对边界条件的处理很到位，比如“滑动窗口最大值”一题，代码里直接加了对空数组的防御判断。
- DeepSeek-V3紧随其后，正确率70%，代码风格更简洁，但对复杂逻辑（如红黑树）的注释偏少。
- Qwen2.5（72B）正确率60%，胜在中文解释清晰，适合初学者；Kimi和Baichuan4在50%左右，偶有“幻觉”生成不存在的API。
- Yi-Lightning速度最快，但正确率垫底，40%，更适合简单任务。

**实用建议**：搞代码生成推荐GLM-4，配合DeepSeek做交叉验证；Qwen2.5适合写中文注释的工程代码。觉得写代码慢的，可以试试这种“双模型校验法”——先用GLM-4生成，再让DeepSeek检查语法，实测能减少40%的人工调bug时间。

欢迎兄弟们补充实测结果，尤其是C++和Rust的对比，一起堆数据！

欢迎光临闲社 (https://www.xianshe.com/)