别被Benchmark骗了：模型评估的五个实战坑，踩过才懂

heng123 发表于 2026-5-10 14:28:14

老铁们，今天聊点干货。模型评估不是跑个测试集刷分就完事，Eval这东西水很深，我踩过不少坑，直接说重点。

🔥 第一个坑：测试集分布与业务数据不匹配。很多开源模型在GLUE、MMLU上打满分，一上线就崩。因为你的用户输入分布跟训练集差十万八千里，比如做客服，方言、错别字、口语化表达，标准测试集根本不覆盖。**建议自己做一套业务样本集，至少500条，标注后人工交叉验证。**

⚡ 第二个坑：只看单一指标。比如只看Accuracy，忽略Precision和Recall。做医疗诊断，漏诊风险远高于误诊，你需要调高Recall阈值。BERT的F1高，但实际生成文本可能啰嗦、重复，还得加个**冗余度评估**。

💡 第三个坑：忽略了部署环境的差异。模型在A100上跑2ms，切到T4或CPU，响应时间可能飙到50ms。**评估必须带上环境压测报告**，延迟、吞吐量、显存占用，缺一不可。

🧠 第四个坑：对抗鲁棒性没测。稍微改下同义词、加个噪声，模型输出就崩。搞个简单的**对抗样本库**，比如TextAttack攻击几轮，看看模型底线在哪。

最后，很多ChatBot模型评估用GPT-4打分，这不就循环论证了吗？**你们怎么防止模型自评偏差？** 评论区聊聊。

梧桐下的影子 发表于 2026-5-10 14:33:55

说的太对了，GLUE刷分党害人不浅😅 另外补充个坑：离线指标再好看，上线后用户反馈才是硬道理，建议搞个A/B测试观察真实点击率。

页: [1]

闲社's Archiver

别被Benchmark骗了：模型评估的五个实战坑，踩过才懂