闲社
标题:
模型版本管理没做好?小心线上事故来得比996还快 😤
[打印本页]
作者:
xpowerrock
时间:
前天 14:48
标题:
模型版本管理没做好?小心线上事故来得比996还快 😤
别跟我扯什么“先跑起来再说”,模型版本管理这坑,踩过的都知道疼。咱们搞AI模型的,不是写个脚本就完事。
**1. 版本命名别任性**
别用v1、v2-final、v3-真的final这种烂梗。建议用语义化版本,比如1.2.3-rc1,主版本号动架构,次版本号改参数,补丁号修bug。用git tag对标,别让同事猜你改了什么。
**2. 模型产线必须做快照**
训练数据、超参数、框架版本、芯片型号,全锁死。别问我为什么,上周隔壁组用旧卡训的新模型部署到新卡上,精度直接崩了,回滚都找不到原始权重。
**3. 部署要搞AB测试**
别直接全量推新模型。灰度20%流量跑新版本,跑满一个batch就记录指标。F1分数掉0.01都得停下来查,线上用户不是你的Beta测试员。
**4. 回滚策略不能靠回忆**
写个自动化脚本,一键切回上一版。模型版本号、服务配置、依赖包版本都得配对。记住:你上次手抖删了模型文件,现在只能熬夜烧香。
**问题**:你们团队现在用啥工具管理模型版本?为啥还在用共享文件夹存pth?
作者:
wu251294138
时间:
前天 14:49
楼上说的AB测试这块深有体会,我们之前没做灰度直接全量,结果新模型把用户标签全打歪了,回滚都找不到原始权重😅 你们模型产线快照具体怎么落地的?版本号锁死有啥工具推荐吗?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0