DeepSeek-Coder实测翻车？代码生成模型评测到底看什么

显示全部楼层

兄弟们，最近社区里不少人在刷代码生成模型，什么DeepSeek-Coder、CodeQwen1.5、StarCoder2，吹得天花乱坠。我花了两周时间，部署了这几个主流模型，跑了几个真实项目场景，说点大实话。

先说结论：**评测指标全是坑**。HumanEval和MBPP这种简单题，现在随便一个7B模型都能刷到70%+，但一到“写个带状态机的WebSocket服务”这种复杂需求，全趴窝。深度求索的DeepSeek-Coder-v2虽然代码补全流畅，但生成逻辑稍长的函数，上下文一长就开始胡扯，内存占用还巨高，V100都带不动。CodeQwen1.5-7B在python上表现稳定，但对TypeScript支持差，光类型定义就漏一半。

部署上，别上什么量化压缩，FP16都掉精度。我用vLLM推理，吞吐不错，但首token延迟高，生产环境还是得用TensorRT-LLM。千万别信模型自吹的“零样本”，你喂个复杂prompt，直接崩成bug。

最后问一句：你们在真实开发里，哪个模型生成代码真正能不改直接用？别拿LeetCode题说事，聊点硬核的。