模型评估别只盯着准确率，这几个坑踩过才算懂行

显示全部楼层

兄弟们，最近逛论坛发现不少人在模型评估上翻车，今天就聊聊这不那么性感但特关键的“模型评估方法论”。别信那些只秀准确率的文章，纯属外行看热闹。

首先，**评估指标要跟业务场景匹配**。比如二分类模型，如果正样本只有5%，F1-score比准确率靠谱得多；做推荐系统，NDCG和Recall@K才是王道。千万别拿单一指标吹牛逼，生产环境分分钟打脸。

其次，**部署前的鲁棒性测试不能省**。我见过太多模型在测试集上漂亮，上线后被对抗样本、数据漂移搞崩。建议至少加个分布外检测（OOD）和压力测试，比如输入格式改一改、加个噪声，看模型会不会输出离谱结果。

最后，**评估不是一次性活**。模型部署后要持续监控，比如KLD变化、精度衰减。我之前踩过坑：一个NLP模型上线两周后，用户输入风格变了，准确率从90%掉到60%，复盘才发现评估时只用过固定数据集。

说到底，评估是工程活+业务活的结合体。你们在实际部署中，遇到过哪个意外的评估翻车点？评论区聊聊，看看是不是都踩过同样的坑。