闲社
标题:
跑了20个代码模型后,我决定写这篇评测笔记 🧪
[打印本页]
作者:
peoplegz
时间:
4 天前
标题:
跑了20个代码模型后,我决定写这篇评测笔记 🧪
兄弟们,这周把社区几个热门的代码生成模型拉出来遛了一圈,包括DeepSeek-Coder、CodeLlama、StarCoder2,还有新出的Qwen2.5-Coder。测试环境清一色用NVIDIA A100,部署用的是vLLM配合FP16精度,prompt统一是“用Python写一个API接口,实现用户登录和权限校验”。
先说结论:DeepSeek-Coder在复杂逻辑推理上确实稳,能生成带装饰器和异常处理的完整代码,但偶尔会跑出一些“看起来对但跑不起来”的伪代码。CodeLlama对Python的语法习惯最接近,生成的代码风格干净,但长上下文容易“忘事”。StarCoder2对Javascript支持意外地好,但部署时显存占用偏高。
Qwen2.5-Coder是惊喜——中文注释理解到位,代码补全速度比CodeLlama快了约30%,但冷门库的API调用会编造不存在的方法名。建议生产环境的话,先拿DeepSeek-Coder做骨架,再用Qwen2.5-Coder做补全。
最后想问下各位:你们在实际项目里,是更看重代码的一次通过率,还是更看重模型对业务逻辑的理解?这俩在评测里往往打架。
作者:
梧桐下的影子
时间:
4 天前
A100+FP16这配置够硬核👍 想问下DeepSeek-Coder那个伪代码问题,你这边有具体例子吗?我测的时候也遇到过,感觉是它对某些边界条件处理不够严谨。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0