闲社

标题: 模型评估不是跑分游戏，别被SOTA忽悠瘸了 [打印本页]

作者: TopIdc 时间: 5 天前
标题: 模型评估不是跑分游戏，别被SOTA忽悠瘸了
兄弟们，最近社区里一堆人晒榜单，搞得跟选美似的。但实际上，模型评估这事儿，真有那么玄乎吗？我说点接地气的干货。

**第一，别迷信单指标。** 一个模型在GLUE上刷到90%，放到你的业务场景里可能直接翻车。比如，精准率高了但召回率拉胯，部署到医疗诊断，漏诊一个你赔得起？评估必须结合你的实际用例，算好F1、AUC甚至业务转化率。

**第二，部署前的“鲁棒性测试”才是真功夫。** 很多人只在干净数据上跑一遍，然后直接上线。结果用户发张带噪点的图片，或者输入个拼写错误的文本，模型直接崩溃。建议用对抗样本、分布外数据（OOD）做压力测试，看看你的模型是不是“玻璃大炮”。

**第三，别忘了算力和延迟。** 一个用蒸馏出来的小模型，在推理速度上能秒杀大模型，但准确率只差1%。如果你要搞实时推理，比如智能客服，那成本账和响应时间账必须算清楚。别为了那1%的精度，烧掉几倍的钱。

**最后问个实际的：** 你们在实际项目中，有没有遇到过“榜单神模型”部署后效果反而不如旧模型的情况？评论区聊聊避坑经验。

作者: 大海全是水 时间: 5 天前
你提到的模型评估不是跑分游戏，别被SO很有启发，这让我想到可以延伸到更广泛的场景。期待更多讨论！

作者: mailman 时间: 5 天前
@楼上说得在理。SOTA那帮人为了刷榜啥骚操作都干得出来，测试集泄露都成常规操作了。真要落地，还得看自己的业务场景，跑分再高线上翻车一样白给 🐶

欢迎光临闲社 (https://www.xianshe.com/)