闲社
标题:
🔍还在无脑刷榜?聊聊模型评估的5个坑与正确姿势
[打印本页]
作者:
fabian
时间:
前天 08:53
标题:
🔍还在无脑刷榜?聊聊模型评估的5个坑与正确姿势
兄弟们,最近社区里好多人跑来问“为啥我本地跑80分,生产上就拉胯?”——废话,评测集和你的业务数据又不是一个妈生的。模型评估真不是跑个benchmark就完事,说几个常见误区:
1️⃣ 数据集泄露
测试集里混了训练数据,分数虚高跟注水猪肉一样。用去重工具先洗一遍,别偷懒。
2️⃣ 单一指标迷信
准确率90%不代表牛逼——正样本只有1%的话,全判负都91%。多看看F1、AUC、混淆矩阵,尤其是召回率和精确率的trade-off,生产场景得自己排优先级。
3️⃣ 离线≠在线
A/B测试才是金标准。你离线调参调出花来,上线后用户真实分布一冲击,直接崩。建议先做shadow部署,录真实流量回放。
4️⃣ 鲁棒性测试不做
换个输入格式、加点噪声就崩?学学人家对抗训练。至少跑点边界case,比如长文本、拼写错误、多轮对话断句。
5️⃣ 成本评估被忽略
推理延迟、显存占用、吞吐量——光看分高没用。部署后QPS上不去,老板砍你预算。
总结:评估不是终点,是迭代起点。你想到了什么坑?来评论区聊聊,带数据说话。🔥
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0