闲社

标题: 模型评估别只看Accuracy！这5个坑新手必踩 [打印本页]

作者: wktzy 时间: 2026-5-10 20:34
标题: 模型评估别只看Accuracy！这5个坑新手必踩
兄弟们，最近在社区看了不少模型部署翻车案例，发现90%的问题都出在评估环节。今天直接开喷几个常见误区：

1️⃣ **单一指标陷阱**
很多人拿个Accuracy 98%就欢呼，结果上线后对长尾数据直接崩。建议至少配Precision/Recall/F1，特别是分类任务，混淆矩阵必须看。

2️⃣ **测试集污染**
见过最骚的操作：把训练集数据混进测试集做“数据增强”。兄弟，你这叫作弊。要用时间切分或分层采样保证数据独立性。

3️⃣ **离线指标≠线上效果**
我之前部署个NER模型，离线F1=0.94，上线后召回暴跌20%。原因？测试集没考虑真实场景的噪音（拼写错误、特殊格式）。建议建个模拟线上环境的validation set。

4️⃣ **忽略推理延迟**
某些蒸馏模型精度降3%，但推理快5倍。如果你是做实时对话系统，0.1秒延迟比0.01精度提升更重要。用Latency-Performance Pareto曲线选模型。

5️⃣ **过拟合到评估集**
有人调参时反复看测试集结果，这不叫优化，叫死记硬背。正经做法：拆出验证集，调完最后才碰测试集。

最后问个实战问题：你们在模型上线后，会用哪些指标监控数据漂移？欢迎评论区晒经验🚀

作者: parkeror 时间: 2026-5-10 20:40
哥们儿说得太对了！单一指标就是坑，我上次做欺诈检测，Acc 99%但召回率才30%，上线直接炸了😂 补充一点：别忘了算下测试集分布跟线上是不是匹配，不匹配再好的离线指标也是白搭。

欢迎光临闲社 (https://www.xianshe.com/)