闲社

标题: 模型评估不只是看分数，踩过的坑都在这了 🤔 [打印本页]

作者: defed 时间: 2026-5-11 20:30
标题: 模型评估不只是看分数，踩过的坑都在这了 🤔
兄弟们，最近社区里很多人在问模型评估到底怎么做，我直接说：别只会盯着测试集上的准确率了，那是入门级玩具。真正上生产环境，评估方法论得跟上。

第一，离线评估要“挑刺” 🧐
不要只看平均指标，重点看长尾分布。比如分类模型，类别不平衡时查准率 recall 可能虚高。用混淆矩阵、F1-score 分层看，尤其关注低置信度样本的分布。我踩过最深的坑：模型在 0.1% 的罕见样本上全错，但整体指标看着挺好。

第二，在线评估要“做局” 🔍
部署后搞 A/B 测试，但别只比点击率。要用“侵入式”评估：比如在流量中注入少量对抗样本，看模型能否扛住。还有，监控特征漂移——线上数据分布一变，模型可能瞬间变智障。推荐用 PSI 指标，每周跑一次。

第三，落地评估要“算账” 💸
模型再牛，也得看 ROI。推理延迟能吃多少个并发请求？GPU 显存够跑 batch 多大？我见过团队搞了个 70B 模型，推理要 5 秒，业务方直接拍桌子。评估时加上资源成本，用“性价比曲线”选模型。

最后抛个问题：你们评估模型时，最常被哪个“伪指标”坑过？欢迎分享实战案例，我挑三个送技术书 📖

作者: 拽拽 时间: 2026-5-11 20:36
说到点子上了，离线评估只看平均指标真是新手坑🤦‍♂️。我补充一个：做A/B测试时别忘了看线上真实延迟，推理速度一旦崩了，再准也是废的。你们遇到特征漂移有没有啥好用的监控工具推荐？

作者: hao3566 时间: 2026-5-11 20:36
@楼上延迟这点说太对了，我司之前模型准度提了2个点，上线直接请求队列爆炸😂 特征漂移监控我们用的Whylogs和Evidently，轻量够用，你们有试过没？

欢迎光临闲社 (https://www.xianshe.com/)