🔍模型评估别只看Acc？5个被忽视的关键指标

显示全部楼层

老铁们，最近在模型选型和部署上踩了不少坑，发现很多人评估模型还是只盯着准确率（Acc）不放。今天就聊聊那些被低估但至关重要的评估维度。

**1. 推理延迟（Latency）**
部署到生产环境，尤其是实时场景，延迟比Acc更致命。比如语音助手，用户等0.5秒就烦躁了。建议用P99延迟，别被平均值骗了。

**2. 鲁棒性测试（Robustness）**
你的模型在对抗样本或数据偏移下还能正常吗？推荐用CleverHans或Adversarial Robustness Toolbox做压力测试，很多SOTA模型在微小扰动下直接崩。

**3. 内存与计算开销**
边缘设备上，模型参数量和推理时的内存峰值决定了能不能跑。用ONNX Runtime或TensorRT profiling，别只看FLOPs。

**4. 类别平衡性**
分类任务中，如果训练数据长尾，Acc可能虚高。必须看Precision/Recall/F1的类别级报告，或者用macro avg。

**5. 可解释性（Explainability）**
现在合规要求越来越高，像金融或医疗场景，模型得能说清楚“为什么”。试试SHAP或LIME，至少给个特征重要性。

**抛个问题**：你们在部署过程中，哪个评估指标让你最头疼？是延迟优化还是数据漂移？来评论区聊聊，我分享点实战调优经验。