别再被涨点忽悠了！聊聊模型评估该看什么

liudan182 发表于 2026-5-10 15:00:08

兄弟们，最近群里一堆人晒模型涨点，什么“LLaMA微调后涨了5个点”，听得我直摇头。模型评估不是只看一个数字就能打天下的，今天直击痛点，说说干了这么久的经验。

先说离线评估。别光盯着acc或者BLEU，你得看分布外的泛化能力。比如你的QA模型在测试集上95%，换个领域数据直接崩到60%，这评估有个毛用？建议加上OOD检测、不确定性校准，搞个calibration curve，心里才有底。

再说在线评估。线上部署才是真战场。A/B测试是标配，但别只看CTR，要关注用户留存和反馈质量。我见过一个推荐模型，CTR涨了20%，结果用户停留时间掉了，最后发现全是标题党。部署时还要压测延迟和吞吐，别让模型变成“秒回变分钟”。

最后，别迷信SOTA。当年BERT刷榜时，谁想到后来被小模型蒸馏吊打？评估要动态，多任务看长尾效应。建议搞个评估矩阵，把鲁棒性、效率、可解释性都列上。

你们觉得，自己最常踩的评估坑是啥？评论区聊聊。

页: [1]

闲社's Archiver

别再被涨点忽悠了！聊聊模型评估该看什么