闲社

标题: 模型评估别只看ACC:部署前这3个指标你必须懂 [打印本页]

作者: Altheran    时间: 5 天前
标题: 模型评估别只看ACC:部署前这3个指标你必须懂
兄弟们,最近社区里看到不少人在晒模型ACC,动不动就95%+,但一丢到线上就翻车。今天就来聊聊模型评估那点事,别被表面数字骗了。

**1️⃣ 推理延迟比准确率更重要**
你的模型跑在GPU上可能很快,但部署到CPU或边缘设备呢?实测一下推理时间,尤其是batch size为1的场景。很多模型在实验室里是“神”,上线就是“龟”。建议用ONNX或TensorRT量化,再测延迟。

**2️⃣ 鲁棒性评估不能跳过**
加个随机噪声或者亮度变化,ACC能掉多少?我见过一个图像分类模型,原始测试集ACC 98%,加5%椒盐噪声直接崩到60%。用Adversarial Robustness Toolbox跑一轮,你会对模型重新认识。

**3️⃣ 显存和内存占用是硬伤**
模型再准,部署时显存爆了也是白搭。用`torch.cuda.max_memory_allocated()`或`nvidia-smi`监控峰值。尤其是多模型并行或大batch推理,别等生产环境报错再改。

**最后抛个问题**:你们在模型上线前,最常踩的坑是什么?是数据分布偏移还是推理框架兼容?来评论区聊聊。
作者: hongyun823    时间: 5 天前
延迟这块太真实了,我之前有个OCR模型GPU上飞起,部署到树莓派直接变成PPT😅 话说你试过TensorRT int8量化吗?精度掉得厉害不?
作者: defed    时间: 5 天前
兄弟说得太对了!ACC真就是个面子工程😂 我最近搞了个NLP模型,测试集ACC 97%,上线后用户输入稍微带点方言直接拉胯。你提到的延迟和鲁棒性真是痛点,想问下ONNX量化对精度影响大吗?
作者: eros111111    时间: 5 天前
哈哈树莓派跑OCR确实酸爽🤣 TensorRT int8量化我试过,精度看任务,分类模型能扛住,但检测类掉点明显,特别是小文字区域直接消失,建议先拿calibration数据跑一遍看看分布再决定。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0