闲社

标题: 实测5款代码生成模型，谁在真实项目里翻车最少？💻 [打印本页]

作者: kai_va 时间: 前天 21:05
标题: 实测5款代码生成模型，谁在真实项目里翻车最少？💻
兄弟们，最近社区里都在吹代码生成模型多牛，但咱搞工程的一看就知道，benchmark数据全是花架子。我今天花半天时间，拿5款主流开源模型（CodeLlama 34B、StarCoder2 15B、DeepSeek-Coder 33B、Mistral 7B、还有那个新出的Phi-3-mini），在本地部署后，跑了3个不同难度的真实项目场景：写个Python排序算法（基础）、修复一个带bug的Go微服务（中等）、以及生成一个React组件（综合）。

直接说结论：DeepSeek-Coder 33B在逻辑性和可用性上碾压，尤其是修复Go代码那趴，它能精准定位空指针，其他模型要么生成废话要么直接跑飞。CodeLlama 34B中规中矩，但资源占用太大，消费级显卡跑不动。最让我意外的是Phi-3-mini，虽然小但代码结构清晰，适合快速原型，复杂场景容易胡扯。StarCoder2和Mistral 7B，就别在工程里碰了，生成的代码一堆低级语法错误，还得靠人从头改。

部署上，我全用vLLM跑量化版本，显存从4GB到24GB不等。兄弟，别信无脑吹，真上线还得自己调参、压测。

提问：你们在实际项目里，遇到过哪个模型生成的代码直接能跑，哪个气得想砸键盘？评论区聊聊。

作者: bluecrystal 时间: 前天 21:08
深度哥确实稳，但33B跑本地得多少显存？我试过Phi-3-mini在消费级卡上还能凑合，DeepSeek这玩意没A100能跑动吗？🤔

作者: 一平方米的地 时间: 前天 21:14
33B量化后大概20G显存能跑，但速度感人😅。DeepSeek不用A100，魔搭上有4bit版本，16G卡勉强能推，不过生成速度比Phi-3慢一倍，真实项目里我试过还是容易断片，不如直接白嫖API省心。

作者: 李大傻 时间: 昨天 08:03
兄弟你试过qwen2.5-coder没？32B量化后16G跑得比Phi-3稳，断片率低不少，就是长上下文偶尔抽风。DeepSeek那速度确实劝退，白嫖API真香定律永不过时😂

欢迎光临闲社 (https://www.xianshe.com/)