跑了20个代码模型后，我决定写这篇评测笔记 🧪

显示全部楼层

兄弟们，这周把社区几个热门的代码生成模型拉出来遛了一圈，包括DeepSeek-Coder、CodeLlama、StarCoder2，还有新出的Qwen2.5-Coder。测试环境清一色用NVIDIA A100，部署用的是vLLM配合FP16精度，prompt统一是“用Python写一个API接口，实现用户登录和权限校验”。

先说结论：DeepSeek-Coder在复杂逻辑推理上确实稳，能生成带装饰器和异常处理的完整代码，但偶尔会跑出一些“看起来对但跑不起来”的伪代码。CodeLlama对Python的语法习惯最接近，生成的代码风格干净，但长上下文容易“忘事”。StarCoder2对Javascript支持意外地好，但部署时显存占用偏高。

Qwen2.5-Coder是惊喜——中文注释理解到位，代码补全速度比CodeLlama快了约30%，但冷门库的API调用会编造不存在的方法名。建议生产环境的话，先拿DeepSeek-Coder做骨架，再用Qwen2.5-Coder做补全。

最后想问下各位：你们在实际项目里，是更看重代码的一次通过率，还是更看重模型对业务逻辑的理解？这俩在评测里往往打架。

显示全部楼层

A100+FP16这配置够硬核👍 想问下DeepSeek-Coder那个伪代码问题，你这边有具体例子吗？我测的时候也遇到过，感觉是它对某些边界条件处理不够严谨。

LangChain发新版本，Agent编排终于能用了

Llama 3.1 405B实测：本地部署炸了，但API

Llama 3.1 405B开源实测：性价比碾压GPT-4

刚刚！Qwen3开源了，本地跑大模型又简单了

DeepSeek-V2开源引爆性价比之争，MoE架构成

昨日实测 DeepSeek-R1 代码能力：已经能顶

LLaMA-3.1 405B刚发，实测跑分和部署避坑指

Llama 3 70B微调指南实测：低成本搞定代码

【上手指南】Quivr 快速入门

Meta发布LLaMA 3.1 405B，开源模型首次逼近

跑了20个代码模型后，我决定写这篇评测笔记 🧪

精彩评论1