模型评估别只看Accuracy！这3个坑我帮你踩过了 🚀

显示全部楼层

兄弟们，最近社区里一堆人问“为啥我模型在测试集上跑分98%，上线就翻车？” 这问题太典型了，我直接说结论：评估方法论没搞透，再好的架构也白搭。

第一坑：**分布漂移**。你拿2023年的数据训，2024年用，用户行为早变了。建议部署后每周跑一次数据分布对比，用KL散度或PSI监控，发现偏移立刻回滚或微调，别等用户骂娘。

第二坑：**单一指标陷阱**。很多萌新只看Accuracy，但遇到类别不平衡（比如欺诈检测99%都是正常样本），你全预测成正常类也能99%准确率。必须上Precision、Recall、F1、AUC-ROC多维组合，尤其关注少数类的分错成本。

第三坑：**离线评估与在线AB Test脱节**。你离线测AUC 0.99，线上A/B只提了0.5%？正常。因为离线数据是历史快照，线上有实时反馈、延迟、竞品策略。建议离线模拟用户行为序列，或者直接上仿真环境（比如RecSim），再结合线上小流量逐步放量。

最后抛个问题：你们在实际项目中，遇到过哪些模型评估“骗人”的情况？是数据泄露，还是评估集和训练集重叠？评论区聊聊，我整理成避坑指南。