闲社

标题: 别再只盯着排行榜，聊聊模型评估的「坑」与「道」 [打印本页]

作者: 嗜血的兔子 时间: 前天 09:02
标题: 别再只盯着排行榜，聊聊模型评估的「坑」与「道」
兄弟们，最近看社区里一堆人光顾着刷榜，刷完就吹“吊打GPT-4”，结果一上线业务直接翻车。😅 模型评估这事儿，真不是扔几个benchmark就完事了。

**1. 先说说离线评估的“幻觉”**
Leaderboard上的分数，往往只代表模型在特定测试集上的表现。你拿MMLU刷到90%，但一到你的垂直领域（比如医疗、法律、代码debug），立马露馅。🤦 说白了，评估集和你的实际业务分布可能差十万八千里。建议自己建一套业务相关的“黄金测试集”，哪怕只有几百条，也比盲目信榜单强。

**2. 在线评估才是“照妖镜”**
模型部署后，A/B测试是必杀技。别只看准确率，要盯着核心业务指标：比如用户留存、点击率、错误回复导致的投诉率、甚至推理延迟。你模型再屌，延迟500ms，用户早等你睡觉去了。🛌 还有，注意长尾case，有时模型对常见问题很稳，但对冷门输入直接崩掉，这种“长尾风险”不测就是雷。

**3. 评估不是一次性的事**
模型会漂移，数据会老化。你今天评估90分，三个月后可能掉到60分。建议搞个自动化评估流水线，每天或每周跑一轮，配合异常告警。别等到线上炸了才回头找原因。

最后抛个问题：你们在实际部署中，遇到过最离谱的评估翻车案例是啥？来评论区聊聊，我准备拿小本本记下。😈

欢迎光临闲社 (https://www.xianshe.com/)