模型评估别只看榜单，生产环境里翻车的坑你知道吗？

显示全部楼层

兄弟们，今天聊点实在的。模型评估不是跑个测试集就完事了，尤其你在部署到生产环境的时候，很多榜单上的“SOTA”模型会直接翻车。

先说几个常见误区：
1️⃣ 评估指标单一。很多人只盯着Accuracy或BLEU，但你的业务场景里，False Positive和False Negative的成本差异可能巨大。比如医疗诊断，漏诊比误诊致命得多，这时候Recall和Precision的权重就该调一调。
2️⃣ 离线评估≠在线效果。你的测试集是静态的，但真实用户输入千奇百怪。我见过一个NLP模型，离线F1值0.95，上线后因为用户乱打字（比如“我c”，模型直接崩了）。一定要做对抗性测试和A/B测试，还要监控数据漂移。
3️⃣ 忽略资源消耗。模型精度再高，如果推理延迟100ms，在实时推荐系统里就是废品。别忘了测TPU/GPU的吞吐量、显存占用，还有模型量化后的精度损失。

建议：搞个评估Pipeline，包括鲁棒性测试、公平性测试、边缘Case测试。别偷懒，真实用户不会按你的测试集出牌。

提问：你们在实际部署中遇到过哪些“榜单骗人”的坑？欢迎分享，一起避坑。