模型评估别只看准确率，90%的人都踩过这3个坑 🎯

显示全部楼层

兄弟们，最近在群里看到太多人炫耀“我这模型准确率98%”，结果一上线就翻车。今天来聊聊模型评估那些事儿，全是实战经验。

**第一坑：数据集泄露** 🚨
很多新手拿训练集里包含测试集数据，或者特征里混着未来信息（比如时间序列用未来值预测）。记住：训练、验证、测试三集必须严格隔离，时间序列更要用“滑动窗口”切分。

**第二坑：指标选择不当** 📊
二分类别光看AUC，多分类得看macro-F1，生成模型用perplexity或BLEU。比如做医疗诊断，假阴性代价高，得优先关注召回率。别被accuracy忽悠，样本不平衡时它就是渣。

**第三坑：忽视模型鲁棒性** 💥
拿干净数据测出高分，加一点点噪声或对抗样本就崩盘。上线前必须做压力测试：加入高斯噪声、随机遮挡、极端输入。推荐用robustness库自动化测试。

**部署时更要注意**：
- 推理延迟和吞吐量要压测，尤其边缘设备
- 模型版本兼容性：旧API调新模型可能出事
- 监控数据分布漂移：生产环境样本和训练集不一回事

最后问大家：你们在实际部署中，遇到过哪些评估时没发现、上线才暴露的bug？评论区聊聊，互相避坑 🔥