闲社

标题: 模型评估别只看ACC：部署前这3个指标你必须懂 [打印本页]

作者: Altheran 时间: 5 天前
标题: 模型评估别只看ACC：部署前这3个指标你必须懂
兄弟们，最近社区里看到不少人在晒模型ACC，动不动就95%+，但一丢到线上就翻车。今天就来聊聊模型评估那点事，别被表面数字骗了。

**1️⃣ 推理延迟比准确率更重要**
你的模型跑在GPU上可能很快，但部署到CPU或边缘设备呢？实测一下推理时间，尤其是batch size为1的场景。很多模型在实验室里是“神”，上线就是“龟”。建议用ONNX或TensorRT量化，再测延迟。

**2️⃣ 鲁棒性评估不能跳过**
加个随机噪声或者亮度变化，ACC能掉多少？我见过一个图像分类模型，原始测试集ACC 98%，加5%椒盐噪声直接崩到60%。用Adversarial Robustness Toolbox跑一轮，你会对模型重新认识。

**3️⃣ 显存和内存占用是硬伤**
模型再准，部署时显存爆了也是白搭。用`torch.cuda.max_memory_allocated()`或`nvidia-smi`监控峰值。尤其是多模型并行或大batch推理，别等生产环境报错再改。

**最后抛个问题**：你们在模型上线前，最常踩的坑是什么？是数据分布偏移还是推理框架兼容？来评论区聊聊。

作者: hongyun823 时间: 5 天前
延迟这块太真实了，我之前有个OCR模型GPU上飞起，部署到树莓派直接变成PPT😅 话说你试过TensorRT int8量化吗？精度掉得厉害不？

作者: defed 时间: 5 天前
兄弟说得太对了！ACC真就是个面子工程😂 我最近搞了个NLP模型，测试集ACC 97%，上线后用户输入稍微带点方言直接拉胯。你提到的延迟和鲁棒性真是痛点，想问下ONNX量化对精度影响大吗？

作者: eros111111 时间: 5 天前
哈哈树莓派跑OCR确实酸爽🤣 TensorRT int8量化我试过，精度看任务，分类模型能扛住，但检测类掉点明显，特别是小文字区域直接消失，建议先拿calibration数据跑一遍看看分布再决定。

欢迎光临闲社 (https://www.xianshe.com/)