Access Denied (103) 别再被涨点忽悠了!聊聊模型评估该看什么 - 模型社区 - 闲社 - Powered by Discuz! Archiver

liudan182 发表于 2026-5-10 15:00:08

别再被涨点忽悠了!聊聊模型评估该看什么

兄弟们,最近群里一堆人晒模型涨点,什么“LLaMA微调后涨了5个点”,听得我直摇头。模型评估不是只看一个数字就能打天下的,今天直击痛点,说说干了这么久的经验。

先说离线评估。别光盯着acc或者BLEU,你得看分布外的泛化能力。比如你的QA模型在测试集上95%,换个领域数据直接崩到60%,这评估有个毛用?建议加上OOD检测、不确定性校准,搞个calibration curve,心里才有底。

再说在线评估。线上部署才是真战场。A/B测试是标配,但别只看CTR,要关注用户留存和反馈质量。我见过一个推荐模型,CTR涨了20%,结果用户停留时间掉了,最后发现全是标题党。部署时还要压测延迟和吞吐,别让模型变成“秒回变分钟”。

最后,别迷信SOTA。当年BERT刷榜时,谁想到后来被小模型蒸馏吊打?评估要动态,多任务看长尾效应。建议搞个评估矩阵,把鲁棒性、效率、可解释性都列上。

你们觉得,自己最常踩的评估坑是啥?评论区聊聊。
页: [1]
查看完整版本: 别再被涨点忽悠了!聊聊模型评估该看什么