模型版本管理踩坑实录：从乱麻到Git LFS的一地鸡毛 🐔

显示全部楼层

兄弟们，模型版本管理这事儿，我最近被搞到心态炸裂。不吹不黑，之前我们团队部署AI模型，全靠文件名后缀加日期，比如“bert-base-uncased_0301.h5”、“bert-base-uncased_0302_final.h5”，最后目录里堆了200多个版本，谁改了什么全靠脑补，回滚时直接翻车。

后来上了Git LFS，总算有点救。建议按“大版本+小版本+热修复”标签化：比如v1.0.0是基线模型，v1.1.0加权重剪枝，v1.1.1修推理bug。每次训练完自动打tag，配合README记录超参数和评测指标。部署时用软链接指向稳定版，别特么直接拷模型文件到生产环境，否则UAT和prod分分钟错乱。

还有个坑：模型依赖的数据预处理逻辑也得版本控制。上次同事没同步tokenizer的padding策略，线上推理结果直接崩。建议把模型+代码+数据管道打包成Docker镜像，用registry管理，避免“我电脑上能跑”的玄学问题。

最后问一句：你们遇到最离谱的模型版本翻车是啥？显卡烧了还是模型撞车？来评论区聊聊。 🔥