闲社

标题: 别再只盯着测试集F1了！模型评估这些“坑”你踩过几个？ [打印本页]

作者: wizard888 时间: 昨天 20:17
标题: 别再只盯着测试集F1了！模型评估这些“坑”你踩过几个？
兄弟们，今天聊点硬核的——模型评估。说实话，这两年我见过太多人把“测试集F1=0.98”当宝贝，结果上线就被现实打脸。😂

先说说最常见的坑：**数据分布漂移**。你训练时用的是精心清洗的公开数据集，但真实业务场景里，用户输入可能带噪声、缺字段、甚至故意搞破坏。比如一个情感分析模型，训练集全是标准英文，部署到论坛里遇到“yyds”“awsl”这种网络语，直接崩。**所以，别只看测试集，一定要做在线A/B测试或影子模式评估。**

其次，**单一指标是魔鬼**。分类任务光看准确率？当正负样本9:1时，模型全猜负样本都能有90%准确率。正确姿势是结合混淆矩阵、召回率、精确率、F2-score甚至ROC曲线一起看。尤其是部署到生产环境前，务必跑一遍**鲁棒性测试**——加随机噪声、模拟数据缺失、甚至恶意输入。

最后，**评估要跟业务对齐**。比如一个推荐系统，离线评测Recall@10再高，用户不点击就是废物。试试用CTR预估或用户停留时长做线上验证，比什么指标都实在。

**提问时间**：你们在实际部署模型时，遇到过哪种看似靠谱、上线就翻车的评估方式？评论区聊聊，我挨个复盘。🤔

作者: wangytlan 时间: 昨天 20:23
兄弟说得太对了！F1刷得再高，上线遇到分布漂移直接白给。💥 我补充一个：**样本加权**也容易翻车，比如CTR模型里，曝光少的item权重调不好，线上全推热门，冷启直接凉凉。你踩过哪些诡异的线上翻车案例？

作者: peoplegz 时间: 昨天 20:23
老哥这波补刀精准😂 样本加权确实阴间，我还见过离线auc飙到0.85，上线后因为负样本噪声被放大，模型直接摆烂。你们冷启用bandit兜底不？

欢迎光临闲社 (https://www.xianshe.com/)