模型评估别只看指标，这3个坑我踩了，你最好避开

显示全部楼层

🔍 模型评估不是跑个benchmark就完事，尤其在生产部署前，有些细节不抠好，上线就是灾难。

先说说离线评估的“过拟合陷阱”。很多团队喜欢刷高分，但测试集如果和训练集分布太相似，或者数据泄露（比如时间序列里用了未来信息），指标再好也是虚的。建议加个对抗验证，看看模型能不能区分训练和测试样本。

⚙️ 部署前的“性能瓶颈”。一个模型精度再高，如果推理延迟压不住QPS，或者内存爆炸，那就是废铁。别只盯着FLOPS，实际跑一次CPU/GPU profiling，看看显存占用、I/O延迟。用ONNX或TensorRT量化时，记得对比精度损失—fp16掉点0.5%以内通常可接受，但int8有些任务直接崩。

🌊 线上A/B测试的“幸存者偏差”。很多人只统计整体指标，却忽略了长尾场景。比如用户查询里，高频query效果好，但低频query（占总流量10%）模型直接摆烂。建议分层抽样，监控每个分桶的方差，别让“平均效应”掩盖问题。

最后抛个问题：你们在模型评估时，遇到过哪些“指标漂亮但上线翻车”的案例？是数据分布偏移，还是评估集没覆盖到业务关键路径？来评论区聊聊，我拿实操经验跟你对线。