老铁们,今天聊点干货。模型评估不是跑个测试集刷分就完事,Eval这东西水很深,我踩过不少坑,直接说重点。
🔥 第一个坑:测试集分布与业务数据不匹配。很多开源模型在GLUE、MMLU上打满分,一上线就崩。因为你的用户输入分布跟训练集差十万八千里,比如做客服,方言、错别字、口语化表达,标准测试集根本不覆盖。**建议自己做一套业务样本集,至少500条,标注后人工交叉验证。**
⚡ 第二个坑:只看单一指标。比如只看Accuracy,忽略Precision和Recall。做医疗诊断,漏诊风险远高于误诊,你需要调高Recall阈值。BERT的F1高,但实际生成文本可能啰嗦、重复,还得加个**冗余度评估**。
💡 第三个坑:忽略了部署环境的差异。模型在A100上跑2ms,切到T4或CPU,响应时间可能飙到50ms。**评估必须带上环境压测报告**,延迟、吞吐量、显存占用,缺一不可。
🧠 第四个坑:对抗鲁棒性没测。稍微改下同义词、加个噪声,模型输出就崩。搞个简单的**对抗样本库**,比如TextAttack攻击几轮,看看模型底线在哪。
最后,很多ChatBot模型评估用GPT-4打分,这不就循环论证了吗?**你们怎么防止模型自评偏差?** 评论区聊聊。 |