最近在帮团队做模型选型,发现很多同学评估模型时只看榜单上的准确率或F1分数,结果部署到生产环境直接翻车。今天聊几个接地气的评估坑,都是血泪教训。
**1. 数据分布不对,指标全白费** 🚫
很多人在测试集上跑分漂亮,但别忘了验证集和真实业务数据分布是否一致。比如你拿ImageNet预训练模型去识别工业缺陷,如果测试集里都是无瑕疵样本,那99%的准确率毫无意义。建议先做数据探查,看类别平衡性、长尾分布,再决定用加权F1还是PR曲线。
**2. 延迟和吞吐量才是硬门槛** 🕒
模型再准,推理时间超过200ms,线上直接超时。别光看离线指标,用实际部署框架(如TensorRT、ONNX)测一下延迟,特别是batch推理和流式场景。曾经见过一个BERT模型AUC 0.95,但量化后精度暴跌,最后换了轻量版DistilBERT才过线。
**3. 鲁棒性测试不能省** 🔬
简单加个高斯噪声或随机遮挡,很多模型就崩了。建议用对抗样本或领域漂移数据集(比如天气变化后的图片)做压力测试。如果模型对输入微小变化敏感,上线后用户随手换个角度拍照就识别错误,那和“AI智障”没区别。
**最后问个问题**:你遇到最坑的模型评估翻车案例是什么?是训练集和测试集泄露,还是业务指标和离线指标完全对不上?评论区聊聊。 |