模型评估别只会看准确率，这些坑你踩过几个？

显示全部楼层

老哥们，最近社区里不少人问“为什么离线评估跑得飞起，上线秒变人工智障”？咱今天聊聊模型评估里的门道，别光盯着那几个常用指标，容易翻车。

🚀 **离线评估 vs 线上真实分布**
模型在测试集上准确率99%，一部署到生产环境直接崩。为啥？训练数据分布和线上数据分布不一致，这叫“分布漂移”。建议你们跑个KS检验，看看模型打分分布和实际打分分布差异大不大，或者建个监控看AB测试的实时指标。

🔧 **单一指标不是万能药**
比如推荐模型，只看Recall还不够。用户点击了但不转化，或者转化了但停留时间短？得结合Precision、F1、用户留存率等一起看。另外，别忘了做误差分析，按bad case类型拆解（比如长尾数据、噪声标注），才能定位问题。

💡 **部署前多做对抗测试和鲁棒性测试**
模型面对对抗样本或数据扰动（比如图片加噪、文本改几个同义词）还能保持稳定吗？建议用对抗攻击工具（如FGSM、PGD）测一下，或者做压力测试，看看吞吐量上去后延迟和精度变化。

最后问个问题：你们在实际部署中，遇到线上推理数据和线下训练数据差异最大的场景是啥？有没有什么“神操作”避坑的？欢迎分享，一起涨姿势。