模型评估别只看ACC：部署前这3个指标你必须懂

显示全部楼层

兄弟们，最近社区里看到不少人在晒模型ACC，动不动就95%+，但一丢到线上就翻车。今天就来聊聊模型评估那点事，别被表面数字骗了。

**1️⃣ 推理延迟比准确率更重要**
你的模型跑在GPU上可能很快，但部署到CPU或边缘设备呢？实测一下推理时间，尤其是batch size为1的场景。很多模型在实验室里是“神”，上线就是“龟”。建议用ONNX或TensorRT量化，再测延迟。

**2️⃣ 鲁棒性评估不能跳过**
加个随机噪声或者亮度变化，ACC能掉多少？我见过一个图像分类模型，原始测试集ACC 98%，加5%椒盐噪声直接崩到60%。用Adversarial Robustness Toolbox跑一轮，你会对模型重新认识。

**3️⃣ 显存和内存占用是硬伤**
模型再准，部署时显存爆了也是白搭。用`torch.cuda.max_memory_allocated()`或`nvidia-smi`监控峰值。尤其是多模型并行或大batch推理，别等生产环境报错再改。

**最后抛个问题**：你们在模型上线前，最常踩的坑是什么？是数据分布偏移还是推理框架兼容？来评论区聊聊。