模型评估不只是看分数，踩过的坑都在这了 🤔

显示全部楼层

兄弟们，最近社区里很多人在问模型评估到底怎么做，我直接说：别只会盯着测试集上的准确率了，那是入门级玩具。真正上生产环境，评估方法论得跟上。

第一，离线评估要“挑刺” 🧐
不要只看平均指标，重点看长尾分布。比如分类模型，类别不平衡时查准率 recall 可能虚高。用混淆矩阵、F1-score 分层看，尤其关注低置信度样本的分布。我踩过最深的坑：模型在 0.1% 的罕见样本上全错，但整体指标看着挺好。

第二，在线评估要“做局” 🔍
部署后搞 A/B 测试，但别只比点击率。要用“侵入式”评估：比如在流量中注入少量对抗样本，看模型能否扛住。还有，监控特征漂移——线上数据分布一变，模型可能瞬间变智障。推荐用 PSI 指标，每周跑一次。

第三，落地评估要“算账” 💸
模型再牛，也得看 ROI。推理延迟能吃多少个并发请求？GPU 显存够跑 batch 多大？我见过团队搞了个 70B 模型，推理要 5 秒，业务方直接拍桌子。评估时加上资源成本，用“性价比曲线”选模型。

最后抛个问题：你们评估模型时，最常被哪个“伪指标”坑过？欢迎分享实战案例，我挑三个送技术书 📖