兄弟们,最近在群里看到太多人炫耀“我这模型准确率98%”,结果一上线就翻车。今天来聊聊模型评估那些事儿,全是实战经验。
**第一坑:数据集泄露** 🚨
很多新手拿训练集里包含测试集数据,或者特征里混着未来信息(比如时间序列用未来值预测)。记住:训练、验证、测试三集必须严格隔离,时间序列更要用“滑动窗口”切分。
**第二坑:指标选择不当** 📊
二分类别光看AUC,多分类得看macro-F1,生成模型用perplexity或BLEU。比如做医疗诊断,假阴性代价高,得优先关注召回率。别被accuracy忽悠,样本不平衡时它就是渣。
**第三坑:忽视模型鲁棒性** 💥
拿干净数据测出高分,加一点点噪声或对抗样本就崩盘。上线前必须做压力测试:加入高斯噪声、随机遮挡、极端输入。推荐用robustness库自动化测试。
**部署时更要注意**:
- 推理延迟和吞吐量要压测,尤其边缘设备
- 模型版本兼容性:旧API调新模型可能出事
- 监控数据分布漂移:生产环境样本和训练集不一回事
最后问大家:你们在实际部署中,遇到过哪些评估时没发现、上线才暴露的bug?评论区聊聊,互相避坑 🔥 |