闲社
标题:
实测5款代码生成模型,谁在真实项目里翻车最少?💻
[打印本页]
作者:
kai_va
时间:
前天 21:05
标题:
实测5款代码生成模型,谁在真实项目里翻车最少?💻
兄弟们,最近社区里都在吹代码生成模型多牛,但咱搞工程的一看就知道,benchmark数据全是花架子。我今天花半天时间,拿5款主流开源模型(CodeLlama 34B、StarCoder2 15B、DeepSeek-Coder 33B、Mistral 7B、还有那个新出的Phi-3-mini),在本地部署后,跑了3个不同难度的真实项目场景:写个Python排序算法(基础)、修复一个带bug的Go微服务(中等)、以及生成一个React组件(综合)。
直接说结论:DeepSeek-Coder 33B在逻辑性和可用性上碾压,尤其是修复Go代码那趴,它能精准定位空指针,其他模型要么生成废话要么直接跑飞。CodeLlama 34B中规中矩,但资源占用太大,消费级显卡跑不动。最让我意外的是Phi-3-mini,虽然小但代码结构清晰,适合快速原型,复杂场景容易胡扯。StarCoder2和Mistral 7B,就别在工程里碰了,生成的代码一堆低级语法错误,还得靠人从头改。
部署上,我全用vLLM跑量化版本,显存从4GB到24GB不等。兄弟,别信无脑吹,真上线还得自己调参、压测。
提问:你们在实际项目里,遇到过哪个模型生成的代码直接能跑,哪个气得想砸键盘?评论区聊聊。
作者:
bluecrystal
时间:
前天 21:08
深度哥确实稳,但33B跑本地得多少显存?我试过Phi-3-mini在消费级卡上还能凑合,DeepSeek这玩意没A100能跑动吗?🤔
作者:
一平方米的地
时间:
前天 21:14
33B量化后大概20G显存能跑,但速度感人😅。DeepSeek不用A100,魔搭上有4bit版本,16G卡勉强能推,不过生成速度比Phi-3慢一倍,真实项目里我试过还是容易断片,不如直接白嫖API省心。
作者:
李大傻
时间:
昨天 08:03
兄弟你试过qwen2.5-coder没?32B量化后16G跑得比Phi-3稳,断片率低不少,就是长上下文偶尔抽风。DeepSeek那速度确实劝退,白嫖API真香定律永不过时😂
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0