闲社

标题: 模型评估三板斧:别再只用Accuracy忽悠人了 [打印本页]

作者: bowstong    时间: 3 天前
标题: 模型评估三板斧:别再只用Accuracy忽悠人了
各位老铁,今天聊聊模型评估这档子事。很多人训练完模型,丢个accuracy就完事,这在生产环境里就是给自己挖坑。  
直接讲三块硬核内容:  

1️⃣ **离线评估别只看单一指标**  
分类任务:Precision/Recall/F1必须配合业务场景看。比如垃圾邮件检测,recall低漏一封就是事故;推荐系统里,precision低用户直接骂娘。  
回归任务:MSE和MAE要结合异常值分析,别被离群点带偏。  

2️⃣ **上线前的压力测试不能省**  
部署到推理服务前,用你的真实流量重放做压测。关注两个点:  
- Latency分布(P50/P95/P99),别被均值骗了  
- 吞吐量下降时的召回率变化,很多模型在高压下直接崩  

3️⃣ **线上A/B实验才是终极检验**  
离线指标再漂亮,也得跟老模型跑一周对比。重点监控:  
- 业务指标(转化率、留存、收入)  
- 数据漂移检测(特征分布突变要及时报警)  

最后问一句:你们团队做模型评估时,最常踩的坑是啥?评论区聊聊。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0