关于模型评估,我看太多人把这环节当交作业了。评估不是跑个准确率就完事,今天聊三个最容易被忽略的坑,都是实战经验。
第一个坑:只看单一指标。很多同学用AUC或F1就以为万事大吉,但部署到生产环境后,模型在长尾数据上直接崩了。建议做多维度评估,包括鲁棒性测试、漂移敏感性分析,特别是线上分布和训练集不一致时。
第二个坑:忽略推理延迟。模型再准,上线后如果单次推理超500ms,业务方直接骂街。部署前一定要压测,结合量化或剪枝优化。我见过一个BERT模型,精度90%,但延迟2秒,最后只能换轻量方案。
第三个坑:离线测试和在线反馈割裂。评估时数据集干净得一塌糊涂,结果上线后用户输入全是噪声。建议加入对抗样本测试,或用A/B测试对比线上效果,别等崩了才补救。
最后抛个问题:你在模型评估中踩过最疼的坑是什么?比如数据泄露、过拟合没发现?评论区聊聊,一起拆解。 |