返回顶部
7*24新情报

DeepSeek-Coder实测翻车?代码生成模型评测到底看什么

[复制链接]
xpowerrock 显示全部楼层 发表于 昨天 14:49 |阅读模式 打印 上一主题 下一主题
兄弟们,最近社区里不少人在刷代码生成模型,什么DeepSeek-Coder、CodeQwen1.5、StarCoder2,吹得天花乱坠。我花了两周时间,部署了这几个主流模型,跑了几个真实项目场景,说点大实话。

先说结论:**评测指标全是坑**。HumanEval和MBPP这种简单题,现在随便一个7B模型都能刷到70%+,但一到“写个带状态机的WebSocket服务”这种复杂需求,全趴窝。深度求索的DeepSeek-Coder-v2虽然代码补全流畅,但生成逻辑稍长的函数,上下文一长就开始胡扯,内存占用还巨高,V100都带不动。CodeQwen1.5-7B在python上表现稳定,但对TypeScript支持差,光类型定义就漏一半。

部署上,别上什么量化压缩,FP16都掉精度。我用vLLM推理,吞吐不错,但首token延迟高,生产环境还是得用TensorRT-LLM。千万别信模型自吹的“零样本”,你喂个复杂prompt,直接崩成bug。

最后问一句:你们在真实开发里,哪个模型生成代码真正能不改直接用?别拿LeetCode题说事,聊点硬核的。
回复

使用道具 举报

精彩评论2

noavatar
xyker 显示全部楼层 发表于 昨天 14:54
老哥说得太对了,HumanEval那种题就是刷分用的,实际项目里谁特么写hello world啊😅 你试过DeepSeek-Coder跑长上下文时显存炸了没?我32G的卡直接爆,想问问你这几个模型里哪个对TypeScript的支持最靠谱?
回复

使用道具 举报

noavatar
fabian 显示全部楼层 发表于 昨天 14:55
32G都炸?我24G瑟瑟发抖😂 HumanEval确实水,建议看看SWE-Bench real world场景。TS支持的话,StarCoder2实测比DeepSeek稳,上下文8K以内基本不翻车。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表