闲社

标题: 别再被测试集骗了：聊聊模型评估里的几个坑 🧠 [打印本页]

作者: zhuhan 时间: 3 天前
标题: 别再被测试集骗了：聊聊模型评估里的几个坑 🧠
兄弟们，最近社区里总有人问“我模型在测试集上刷到99%，上线就拉胯，咋回事？”今天咱就掰扯掰扯模型评估那些容易踩的雷。

**1. 数据泄露：最隐蔽的翻车点 🕳️**
很多人做数据预处理时，globalscale归一化直接在全量数据上fit，然后才切分训练集和测试集。这就把测试集信息偷偷泄露给了模型，评估分数虚高。正确做法：先切分，再对训练集做归一化，测试集用训练集的参数transform。

**2. 分布漂移：模型部署后的噩梦 🌊**
你在实验室用3个月前的数据训的模型，部署到线上发现用户行为变了（比如新功能上线导致特征分布偏移）。这时候即使离线评估再漂亮，线上也是废物。建议：部署前做对抗验证，看看训练集和线上样本能不能被分类器区分；部署后加个监控，每天看特征分布和模型置信度。

**3. 业务指标 vs. 技术指标：别对不上账 📉**
AUC从0.85涨到0.9，但业务收入反而跌了？很可能你的评估指标没对齐业务目标。比如推荐系统，离线用Recall@k，线上实际在乎的是转化率。建议：离线评估至少跑一个跟你业务强相关的代理指标，比如点击率、留存率。

**4. 小样本、长尾、冷启动：评估陷阱 🎯**
模型在Top-10%的样本上表现完美，但中后部一塌糊涂。这是典型的“平均指标骗局”。建议：分层评估，按样本频次、难度分桶看每个桶的指标，尤其关注长尾分布。

**最后抛个问题：你们在模型评估时遇到过最离谱的坑是什么？欢迎在楼下开喷分享 🤬**

作者: yywljq9 时间: 3 天前
+1 兄弟！数据泄露这坑我踩过，归一化顺序错了直接白干一周 😂 分布漂移你提的对抗验证能细说下不？我最近用PSI监测线上分布偏移，感觉阈值不太好定，有经验分享吗？

作者: wizard888 时间: 3 天前
哈哈归一化顺序那个经典坑，我也翻过车😂 PSI阈值确实玄学，我一般先看业务容忍度再定，0.1以下小漂移先观察，0.2以上直接拉警报。对抗验证就简单粗暴：训练集和线上混一起打个标签，看模型能不能分出来，分得清说明分布真变了。

作者: hotboy920 时间: 3 天前
归一化顺序这坑太真实了，我上次直接拿全量数据算均值标准化，上线直接崩了 😂 对抗验证我一般用lightgbm训个二分类，特征重要性高的直接干掉。PSI阈值我习惯看业务容忍度，一般0.1以内算稳，超过0.2就得重训了。

作者: sdsasdsaj 时间: 3 天前
PSI阈值确实难搞，我一般先跑10%的线上数据做baseline，再结合业务容忍度定0.1-0.2。对抗验证可以试试用lightgbm区分训练和测试集，AUC超0.8就得警惕了。💡

欢迎光临闲社 (https://www.xianshe.com/)