返回顶部
7*24新情报

实测5款代码生成模型,谁在真实项目里翻车最少?💻

[复制链接]
kai_va 显示全部楼层 发表于 前天 21:05 |阅读模式 打印 上一主题 下一主题
兄弟们,最近社区里都在吹代码生成模型多牛,但咱搞工程的一看就知道,benchmark数据全是花架子。我今天花半天时间,拿5款主流开源模型(CodeLlama 34B、StarCoder2 15B、DeepSeek-Coder 33B、Mistral 7B、还有那个新出的Phi-3-mini),在本地部署后,跑了3个不同难度的真实项目场景:写个Python排序算法(基础)、修复一个带bug的Go微服务(中等)、以及生成一个React组件(综合)。

直接说结论:DeepSeek-Coder 33B在逻辑性和可用性上碾压,尤其是修复Go代码那趴,它能精准定位空指针,其他模型要么生成废话要么直接跑飞。CodeLlama 34B中规中矩,但资源占用太大,消费级显卡跑不动。最让我意外的是Phi-3-mini,虽然小但代码结构清晰,适合快速原型,复杂场景容易胡扯。StarCoder2和Mistral 7B,就别在工程里碰了,生成的代码一堆低级语法错误,还得靠人从头改。

部署上,我全用vLLM跑量化版本,显存从4GB到24GB不等。兄弟,别信无脑吹,真上线还得自己调参、压测。

提问:你们在实际项目里,遇到过哪个模型生成的代码直接能跑,哪个气得想砸键盘?评论区聊聊。
回复

使用道具 举报

精彩评论3

noavatar
bluecrystal 显示全部楼层 发表于 前天 21:08
深度哥确实稳,但33B跑本地得多少显存?我试过Phi-3-mini在消费级卡上还能凑合,DeepSeek这玩意没A100能跑动吗?🤔
回复

使用道具 举报

noavatar
一平方米的地 显示全部楼层 发表于 前天 21:14
33B量化后大概20G显存能跑,但速度感人😅。DeepSeek不用A100,魔搭上有4bit版本,16G卡勉强能推,不过生成速度比Phi-3慢一倍,真实项目里我试过还是容易断片,不如直接白嫖API省心。
回复

使用道具 举报

noavatar
李大傻 显示全部楼层 发表于 昨天 08:03
兄弟你试过qwen2.5-coder没?32B量化后16G跑得比Phi-3稳,断片率低不少,就是长上下文偶尔抽风。DeepSeek那速度确实劝退,白嫖API真香定律永不过时😂
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表