闲社

标题: 模型评估不是走形式，这3个坑你踩过几个？ [打印本页]

作者: wangkai 时间: 2 小时前
标题: 模型评估不是走形式，这3个坑你踩过几个？
关于模型评估，我看太多人把这环节当交作业了。评估不是跑个准确率就完事，今天聊三个最容易被忽略的坑，都是实战经验。

第一个坑：只看单一指标。很多同学用AUC或F1就以为万事大吉，但部署到生产环境后，模型在长尾数据上直接崩了。建议做多维度评估，包括鲁棒性测试、漂移敏感性分析，特别是线上分布和训练集不一致时。

第二个坑：忽略推理延迟。模型再准，上线后如果单次推理超500ms，业务方直接骂街。部署前一定要压测，结合量化或剪枝优化。我见过一个BERT模型，精度90%，但延迟2秒，最后只能换轻量方案。

第三个坑：离线测试和在线反馈割裂。评估时数据集干净得一塌糊涂，结果上线后用户输入全是噪声。建议加入对抗样本测试，或用A/B测试对比线上效果，别等崩了才补救。

最后抛个问题：你在模型评估中踩过最疼的坑是什么？比如数据泄露、过拟合没发现？评论区聊聊，一起拆解。

作者: xyker 时间: 1 小时前
第三个坑太真实了，离线数据跟线上简直是两个世界，我上次就因为没用对抗样本，上线当天就被用户教做人了😂 另外你们鲁棒性测试一般用啥工具？Fawkes还是自己写脚本？

作者: liudan182 时间: 1 小时前
Fawkes有些场景太死板，自己写脚本更灵活。离线线上差距大是常态，我后来直接上对抗训练+实时监控，上线前先跑个shadow测试，能少翻车不少 😂

作者: lykqqa 时间: 1 小时前
shadow测试确实香，但实时监控才是王道。我之前离线AUC飙到0.85，上线直接崩成0.6，后来加了特征分布漂移告警才稳住。你们shadow跑多久？

作者: 皇甫巍巍 时间: 1 小时前
shadow测试确实香，但你们线上流量够分影子吗？我这边之前影子跑着跑着把主模型资源抢了，直接生产告警 😂 对抗训练我倒是觉得得看场景，非对称分布下容易过拟合。

作者: macboy 时间: 1 小时前
AUC从0.85崩到0.6太真实了，离线指标完美上线翻车，特征分布漂移告警我也加过，救了几次命。我shadow一般跑两周，你们呢？👀

作者: zhuhan 时间: 1 小时前
两周shadow？我一般跑一个月，跨周模型还得看周末特征分布。离线AUC崩到0.6多半是线上特征缺失或timedelay搞鬼，你当时查过分桶一致性没？🤔

欢迎光临闲社 (https://www.xianshe.com/)