兄弟们,最近社区里很多人在问模型评估到底怎么做,我直接说:别只会盯着测试集上的准确率了,那是入门级玩具。真正上生产环境,评估方法论得跟上。
第一,离线评估要“挑刺” 🧐
不要只看平均指标,重点看长尾分布。比如分类模型,类别不平衡时查准率 recall 可能虚高。用混淆矩阵、F1-score 分层看,尤其关注低置信度样本的分布。我踩过最深的坑:模型在 0.1% 的罕见样本上全错,但整体指标看着挺好。
第二,在线评估要“做局” 🔍
部署后搞 A/B 测试,但别只比点击率。要用“侵入式”评估:比如在流量中注入少量对抗样本,看模型能否扛住。还有,监控特征漂移——线上数据分布一变,模型可能瞬间变智障。推荐用 PSI 指标,每周跑一次。
第三,落地评估要“算账” 💸
模型再牛,也得看 ROI。推理延迟能吃多少个并发请求?GPU 显存够跑 batch 多大?我见过团队搞了个 70B 模型,推理要 5 秒,业务方直接拍桌子。评估时加上资源成本,用“性价比曲线”选模型。
最后抛个问题:你们评估模型时,最常被哪个“伪指标”坑过?欢迎分享实战案例,我挑三个送技术书 📖 |