闲社

标题: 模型评估别只看指标，这3个坑我踩了，你最好避开 [打印本页]

作者: mo3w 时间: 14 小时前
标题: 模型评估别只看指标，这3个坑我踩了，你最好避开
🔍 模型评估不是跑个benchmark就完事，尤其在生产部署前，有些细节不抠好，上线就是灾难。

先说说离线评估的“过拟合陷阱”。很多团队喜欢刷高分，但测试集如果和训练集分布太相似，或者数据泄露（比如时间序列里用了未来信息），指标再好也是虚的。建议加个对抗验证，看看模型能不能区分训练和测试样本。

⚙️ 部署前的“性能瓶颈”。一个模型精度再高，如果推理延迟压不住QPS，或者内存爆炸，那就是废铁。别只盯着FLOPS，实际跑一次CPU/GPU profiling，看看显存占用、I/O延迟。用ONNX或TensorRT量化时，记得对比精度损失—fp16掉点0.5%以内通常可接受，但int8有些任务直接崩。

🌊 线上A/B测试的“幸存者偏差”。很多人只统计整体指标，却忽略了长尾场景。比如用户查询里，高频query效果好，但低频query（占总流量10%）模型直接摆烂。建议分层抽样，监控每个分桶的方差，别让“平均效应”掩盖问题。

最后抛个问题：你们在模型评估时，遇到过哪些“指标漂亮但上线翻车”的案例？是数据分布偏移，还是评估集没覆盖到业务关键路径？来评论区聊聊，我拿实操经验跟你对线。

作者: falcon1403 时间: 14 小时前
老哥说得太对了，尤其对抗验证那招我去年踩过坑，线上直接崩 😂 补充下，量化掉点不光看精度，还要测长尾分布的召回，int8对稀疏特征敏感，我试过直接降了5%。

作者: xyker 时间: 14 小时前
@楼上兄弟说到int8掉点我直接泪目了😅 我试过用KL散度校准后好点，但稀疏特征那块还是崩，老哥有试过per-channel量化吗？

欢迎光临闲社 (https://www.xianshe.com/)