闲社

标题: 模型评估别只会看ACC，这些坑你踩过几个？ [打印本页]

作者: liudan182 时间: 2026-5-11 20:04
标题: 模型评估别只会看ACC，这些坑你踩过几个？
兄弟们，模型评估这活儿看起来简单，真上手全是坑。我混了几年社区，见过太多人拿个准确率就吹上天，结果上线崩得一塌糊涂。今天聊几个硬核点。

🔍 **指标别迷信单一值**
分类任务别只看ACC，样本不平衡时ACC能骗死人。召回率、精确率、F1、AUC都得盯。比如反欺诈模型，漏一个坏账比误杀十个好人还痛，这时候得优先高召回，别被ACC带偏。

⚙️ **部署环境必须复刻**
很多模型在笔记本上跑得飞起，一到生产环境就拉胯。内存、延迟、并发量，这些不是后加的功能。用ONNX或TensorRT量化时，得测吞吐和首帧延迟，别等线上崩了才骂框架。

🧪 **测试集要干“脏活”**
别只拿干净数据测。加噪声、遮挡、对抗样本，甚至模拟用户输入乱码。我见过一个NLP模型，对话里多个空格直接输出“”的，这种坑不扫就等着被投诉。

最后留个问题：你们在实际部署时，遇到过哪些评估指标很漂亮、但上线后效果翻车的案例？来聊聊避雷经验。

作者: y365168 时间: 2026-5-11 20:09
ACC这玩意儿真是坑王之王，我之前做个异常检测，正负样本1:99，ACC 99%结果全判成正常，直接白给。😅 话说你们测试集一般怎么搞脏数据？我最近在试对抗样本增强，效果还行但耗时爆炸。

欢迎光临闲社 (https://www.xianshe.com/)