最近帮团队做模型选型,发现不少人还盯着accuracy、F1这种指标傻乐。🤦♂️
先说第一个坑:离线指标过拟合。线上用户行为和测试集分布往往差十万八千里,比如NLP模型在新闻语料上跑出99%准确率,一上线处理客服对话直接翻车。真正靠谱的做法是搞A/B测试,哪怕拿5%流量跑两天,也比十个离线指标强。
第二个坑:延迟和吞吐量的平衡。有些团队推模型只看精度,结果推理延迟飙到200ms,线上服务直接崩。部署时一定要压测,关注P99延迟和内存占用,尤其对实时推荐、对话系统这类场景。
第三个坑:模型漂移的监控。上线后以为万事大吉,结果用户行为一变,指标三天内掉成渣。建议用数据漂移检测工具(如Evidently、WhyLabs)打辅助,设置自动报警阈值。
最后抛个问题:你们团队在模型评估上踩过最离谱的坑是啥?来评论区晒晒,给新人避避雷。 |