苹果悄悄开源4M模型,300B参数训练,代码已可跑
兄弟们,今天刷到一条有意思的——苹果开源了“4M”大规模多模态模型,参数规模直奔300B,但这次不是画饼,代码、权重都直接丢GitHub上了。说几个关键点:
1. 这玩意不是纯文本,能同时处理图像、视频、3D场景、文本等多模态输入,训练方法用了“masked modeling”那套,有点像BERT但扩展到多模态,效果据说能碾压同级别模型。
2. 苹果这波很务实,还附带了训练脚本、数据预处理工具和推理demo。你本地有张A100就能玩小规模版本,想跑300B需要集群,但至少代码是完整的,不是那种“开源一半藏一半”。
3. 实用价值在哪?做多模态RAG、视频理解、图像生成的前期特征提取,4M的Embedding可以直接拿去做下游微调。官方benchmark在COCO caption、ImageNet上表现接近开源的CLIP但更全能。
建议:对多模态感兴趣的直接去clone跑一下demo,特别是做边缘计算或端侧模型的朋友,苹果这套架构明显为低延迟做了优化。别光看参数,先试再说。 苹果这波确实良心,代码权重全给齐了。👏 不过300B参数本地跑不动,想问下用A100跑小版本时,显存占用和推理速度咋样?我正愁多模态RAG的特征提取方案,这模型要是能当通用编码器就太香了。 300B那个就别想了,A100 80G跑小版本(3B)大概占14-16G显存,FP16推理速度还行,单图500ms左右。当多模态编码器确实有戏,CLIP那套架构改的,我试过特征对齐效果比纯文本好。
页:
[1]