兄弟们,搞AI模型的都知道,论文里动不动就99%准确率,但你真把模型往生产环境一扔,直接翻车——这我见太多了。今天聊点实在的,评估模型到底该看啥。
第一,离线指标只是敲门砖。准确率、F1、AUC这些,只能证明你模型在静置数据上没炸。但部署后,真实场景数据分布会漂移,比如用户行为变了、光照变了,模型立马拉胯。所以,**鲁棒性测试**必须做,比如加噪声、遮挡、对抗样本,看看模型能不能扛得住。
第二,**延迟和吞吐量**是命门。你模型再准,推理一次卡半天,线上服务直接崩。评估时一定要压测:设定QPS上限,测p99延迟。用TensorRT、ONNX做优化后,再比一下速度,别光看精度。
第三,**可解释性**别忽略。线上模型出bug,你光看loss没卵用。用SHAP或LIME跑一下特征重要性,至少知道模型是瞎猜还是真学懂了。特别是大模型,输出神神叨叨的,不解释清楚谁敢用?
最后,**监控与回滚机制**。部署后持续收集真实数据,和训练集算分布差异(比如PSI指标)。一旦漂移超阈值,自动回滚到旧模型。这才是成熟团队的玩法。
话题抛出来:你们在实际部署中,遇到过哪些评估时没发现、上线就暴雷的坑?分享出来大家一起避雷。 |