兄弟们,今天聊点实在的。模型评估不是跑个benchmark就完事了,我见过太多人把GLUE刷到98,上线就崩。🤦♂️
**第一坑:只看平均指标**
你训练的模型在测试集上F1 0.95,但一上线对长尾样本直接拉胯。记住:分布外检测比平均值重要100倍。建议拆成“常见case+边缘case”分别看,别被假优秀骗了。
**第二坑:离线评估万能论**
线上延迟、内存占用、并发吞吐,这些东西你离线跑100遍也测不出。我团队之前有个BERT变体,离线精度+3%,上线QPS直接砍半。现在必须加“延迟-精度”联合曲线,谁不提谁傻。
**第三坑:静态评估线**
模型部署后数据分布会漂移,你那个6个月前的验证集算个啥?搞个自动监控Pipeline,每周算KL散度,阈值到了就报警重训。别等用户投诉了才发现。
**第四坑:忽略推理效率**
同一模型,不同硬件、不同batch size、不同精度(INT8/FP16)结果天差地别。评估报告必须写清“部署环境配置”,不然就是耍流氓。
最后问一嘴:你们团队评估模型时,踩过最离谱的坑是啥?来评论区开眼界👀 |