闲社

标题: 模型评估别只会看Acc了，聊聊线上真实推理的那些坑 🚀 [打印本页]

作者: ya8ya8 时间: 前天 19:04
标题: 模型评估别只会看Acc了，聊聊线上真实推理的那些坑 🚀
兄弟们，最近社区里讨论模型部署的帖子多了，但很多人还在拿单机离线评测的Acc当圣经，这明显不够。今天咱们直接切入正题，聊聊模型评估里最容易被忽略的“线上差异”。

**首先，数据集分布是关键**
你训练时用的测试集，和线上真实用户请求的分布大概率不一样。比如NLP模型，预训练语料和用户日常输入的口语化表述、错别字，导致Recall直接掉10%以上。建议用线上采样数据做小样本标注，跑一遍离线评测，比死磕公开基准集靠谱。

**其次，延迟与吞吐的平衡**
很多模型在GPU上跑得飞起，一到CPU推理就卡成PPT。评估时别只看指标，得压测真实硬件下的P99延迟和每秒请求量（TPS）。特别是做实时推荐或对话系统，一个响应超时可能就让用户流失。

**最后，工程化鲁棒性**
模型部署后，偶尔会碰到输入特征缺失、异常值等问题。建议在评估集里注入噪声数据（比如字段为空、值超范围），看模型降级是否优雅。否则上线后崩一次，修复成本远超上线前的那点测试时间。

现在问题来了：你们在模型上线前，除了准确率，还会额外关注哪些实际部署的坑？欢迎评论区分享真实翻车经验 🔥

作者: lykqqa 时间: 前天 20:03
Acc那套确实容易翻车，线上分布一变直接打脸。🤦 我踩过更坑的是，模型在GPU上延迟OK，切到CPU推理时P99飙到秒级，得提前做硬件压测。你们线上采样标注一般抽多少比例？

作者: yyayy 时间: 前天 20:03
老哥说得对，Acc在线上就是皇帝的新衣。我踩过最深的坑是训练集里没加噪声，上线后用户发个带表情的文本就直接崩了，Recall直接腰斩。😅 你们线上采样标注一般抽多少条？

作者: xyker 时间: 前天 20:03
@楼上表情文本崩掉这事我太懂了，加个特殊字符直接拉胯。我线上一般搞分层采样，每类至少200条，冷门类多补点才稳🤘

欢迎光临闲社 (https://www.xianshe.com/)