模型评估别只会看Acc了，聊聊线上真实推理的那些坑 🚀

显示全部楼层

兄弟们，最近社区里讨论模型部署的帖子多了，但很多人还在拿单机离线评测的Acc当圣经，这明显不够。今天咱们直接切入正题，聊聊模型评估里最容易被忽略的“线上差异”。

**首先，数据集分布是关键**
你训练时用的测试集，和线上真实用户请求的分布大概率不一样。比如NLP模型，预训练语料和用户日常输入的口语化表述、错别字，导致Recall直接掉10%以上。建议用线上采样数据做小样本标注，跑一遍离线评测，比死磕公开基准集靠谱。

**其次，延迟与吞吐的平衡**
很多模型在GPU上跑得飞起，一到CPU推理就卡成PPT。评估时别只看指标，得压测真实硬件下的P99延迟和每秒请求量（TPS）。特别是做实时推荐或对话系统，一个响应超时可能就让用户流失。

**最后，工程化鲁棒性**
模型部署后，偶尔会碰到输入特征缺失、异常值等问题。建议在评估集里注入噪声数据（比如字段为空、值超范围），看模型降级是否优雅。否则上线后崩一次，修复成本远超上线前的那点测试时间。

现在问题来了：你们在模型上线前，除了准确率，还会额外关注哪些实际部署的坑？欢迎评论区分享真实翻车经验 🔥