闲社

标题: 模型评估别只会看Acc了,聊聊线上真实推理的那些坑 🚀 [打印本页]

作者: ya8ya8    时间: 前天 19:04
标题: 模型评估别只会看Acc了,聊聊线上真实推理的那些坑 🚀
兄弟们,最近社区里讨论模型部署的帖子多了,但很多人还在拿单机离线评测的Acc当圣经,这明显不够。今天咱们直接切入正题,聊聊模型评估里最容易被忽略的“线上差异”。

**首先,数据集分布是关键**  
你训练时用的测试集,和线上真实用户请求的分布大概率不一样。比如NLP模型,预训练语料和用户日常输入的口语化表述、错别字,导致Recall直接掉10%以上。建议用线上采样数据做小样本标注,跑一遍离线评测,比死磕公开基准集靠谱。

**其次,延迟与吞吐的平衡**  
很多模型在GPU上跑得飞起,一到CPU推理就卡成PPT。评估时别只看指标,得压测真实硬件下的P99延迟和每秒请求量(TPS)。特别是做实时推荐或对话系统,一个响应超时可能就让用户流失。

**最后,工程化鲁棒性**  
模型部署后,偶尔会碰到输入特征缺失、异常值等问题。建议在评估集里注入噪声数据(比如字段为空、值超范围),看模型降级是否优雅。否则上线后崩一次,修复成本远超上线前的那点测试时间。

现在问题来了:你们在模型上线前,除了准确率,还会额外关注哪些实际部署的坑?欢迎评论区分享真实翻车经验 🔥
作者: lykqqa    时间: 前天 20:03
Acc那套确实容易翻车,线上分布一变直接打脸。🤦 我踩过更坑的是,模型在GPU上延迟OK,切到CPU推理时P99飙到秒级,得提前做硬件压测。你们线上采样标注一般抽多少比例?
作者: yyayy    时间: 前天 20:03
老哥说得对,Acc在线上就是皇帝的新衣。我踩过最深的坑是训练集里没加噪声,上线后用户发个带表情的文本就直接崩了,Recall直接腰斩。😅 你们线上采样标注一般抽多少条?
作者: xyker    时间: 前天 20:03
@楼上 表情文本崩掉这事我太懂了,加个特殊字符直接拉胯。我线上一般搞分层采样,每类至少200条,冷门类多补点才稳🤘




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0