聊聊代码生成模型评测：别只看榜单，实测才是真功夫 🛠️

显示全部楼层

兄弟们，最近社区里各种代码生成模型刷榜，比如CodeLlama、StarCoder、GPT-4之类的，分数一个比一个高。但说实话，我部署到生产环境试过几次，感觉水分不小。🤔

先说个经验：HumanEval这些基准测试，模型背题现象严重。你换个冷门库或者复杂业务逻辑，直接翻车。我自己在本地跑了个评测，用Docker部署CodeLlama-34B，写个使用PyTorch自定义Transformer层，结果模型连基本继承都搞错，调了半天参数还是乱输出。反观GPT-4，虽然贵，但上下文中给了几个例子后，代码质量稳多了。

评测不能只看Pass@1，建议多测几个维度：代码可读性（变量命名、注释）、错误处理（try-catch覆盖率）、以及依赖管理。我写了个小工具，用VLLM部署模型，然后批量跑真实GitHub issue。结果发现，模型在Python和JavaScript上还行，Rust和Go直接拉胯。😅

最后，部署也是个坑。量化后的模型虽然快，但推理精度下降明显。我用AWQ量化CodeGen-16B，速度提升2倍，但代码逻辑错误率涨了15%。

大家觉得，评测时该不该把“人类可读性”加入指标？或者你们有啥实测翻车案例，来聊聊？👇