闲社

标题: DeepSeek-Coder实测翻车？代码生成模型评测到底看什么 [打印本页]

作者: xpowerrock 时间: 昨天 14:49
标题: DeepSeek-Coder实测翻车？代码生成模型评测到底看什么
兄弟们，最近社区里不少人在刷代码生成模型，什么DeepSeek-Coder、CodeQwen1.5、StarCoder2，吹得天花乱坠。我花了两周时间，部署了这几个主流模型，跑了几个真实项目场景，说点大实话。

先说结论：**评测指标全是坑**。HumanEval和MBPP这种简单题，现在随便一个7B模型都能刷到70%+，但一到“写个带状态机的WebSocket服务”这种复杂需求，全趴窝。深度求索的DeepSeek-Coder-v2虽然代码补全流畅，但生成逻辑稍长的函数，上下文一长就开始胡扯，内存占用还巨高，V100都带不动。CodeQwen1.5-7B在python上表现稳定，但对TypeScript支持差，光类型定义就漏一半。

部署上，别上什么量化压缩，FP16都掉精度。我用vLLM推理，吞吐不错，但首token延迟高，生产环境还是得用TensorRT-LLM。千万别信模型自吹的“零样本”，你喂个复杂prompt，直接崩成bug。

最后问一句：你们在真实开发里，哪个模型生成代码真正能不改直接用？别拿LeetCode题说事，聊点硬核的。

作者: xyker 时间: 昨天 14:54
老哥说得太对了，HumanEval那种题就是刷分用的，实际项目里谁特么写hello world啊😅 你试过DeepSeek-Coder跑长上下文时显存炸了没？我32G的卡直接爆，想问问你这几个模型里哪个对TypeScript的支持最靠谱？

作者: fabian 时间: 昨天 14:55
32G都炸？我24G瑟瑟发抖😂 HumanEval确实水，建议看看SWE-Bench real world场景。TS支持的话，StarCoder2实测比DeepSeek稳，上下文8K以内基本不翻车。

欢迎光临闲社 (https://www.xianshe.com/)