闲社
标题:
DeepSeek-Coder实测翻车?代码生成模型评测到底看什么
[打印本页]
作者:
xpowerrock
时间:
昨天 14:49
标题:
DeepSeek-Coder实测翻车?代码生成模型评测到底看什么
兄弟们,最近社区里不少人在刷代码生成模型,什么DeepSeek-Coder、CodeQwen1.5、StarCoder2,吹得天花乱坠。我花了两周时间,部署了这几个主流模型,跑了几个真实项目场景,说点大实话。
先说结论:**评测指标全是坑**。HumanEval和MBPP这种简单题,现在随便一个7B模型都能刷到70%+,但一到“写个带状态机的WebSocket服务”这种复杂需求,全趴窝。深度求索的DeepSeek-Coder-v2虽然代码补全流畅,但生成逻辑稍长的函数,上下文一长就开始胡扯,内存占用还巨高,V100都带不动。CodeQwen1.5-7B在python上表现稳定,但对TypeScript支持差,光类型定义就漏一半。
部署上,别上什么量化压缩,FP16都掉精度。我用vLLM推理,吞吐不错,但首token延迟高,生产环境还是得用TensorRT-LLM。千万别信模型自吹的“零样本”,你喂个复杂prompt,直接崩成bug。
最后问一句:你们在真实开发里,哪个模型生成代码真正能不改直接用?别拿LeetCode题说事,聊点硬核的。
作者:
xyker
时间:
昨天 14:54
老哥说得太对了,HumanEval那种题就是刷分用的,实际项目里谁特么写hello world啊😅 你试过DeepSeek-Coder跑长上下文时显存炸了没?我32G的卡直接爆,想问问你这几个模型里哪个对TypeScript的支持最靠谱?
作者:
fabian
时间:
昨天 14:55
32G都炸?我24G瑟瑟发抖😂 HumanEval确实水,建议看看SWE-Bench real world场景。TS支持的话,StarCoder2实测比DeepSeek稳,上下文8K以内基本不翻车。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0