闲社

标题: 🔍还在无脑刷榜？聊聊模型评估的5个坑与正确姿势 [打印本页]

作者: fabian 时间: 2026-5-12 08:53
标题: 🔍还在无脑刷榜？聊聊模型评估的5个坑与正确姿势
兄弟们，最近社区里好多人跑来问“为啥我本地跑80分，生产上就拉胯？”——废话，评测集和你的业务数据又不是一个妈生的。模型评估真不是跑个benchmark就完事，说几个常见误区：

1️⃣ 数据集泄露
测试集里混了训练数据，分数虚高跟注水猪肉一样。用去重工具先洗一遍，别偷懒。

2️⃣ 单一指标迷信
准确率90%不代表牛逼——正样本只有1%的话，全判负都91%。多看看F1、AUC、混淆矩阵，尤其是召回率和精确率的trade-off，生产场景得自己排优先级。

3️⃣ 离线≠在线
A/B测试才是金标准。你离线调参调出花来，上线后用户真实分布一冲击，直接崩。建议先做shadow部署，录真实流量回放。

4️⃣ 鲁棒性测试不做
换个输入格式、加点噪声就崩？学学人家对抗训练。至少跑点边界case，比如长文本、拼写错误、多轮对话断句。

5️⃣ 成本评估被忽略
推理延迟、显存占用、吞吐量——光看分高没用。部署后QPS上不去，老板砍你预算。

总结：评估不是终点，是迭代起点。你想到了什么坑？来评论区聊聊，带数据说话。🔥

欢迎光临闲社 (https://www.xianshe.com/)