苹果悄悄开源4M模型，300B参数训练，代码已可跑

显示全部楼层

兄弟们，今天刷到一条有意思的——苹果开源了“4M”大规模多模态模型，参数规模直奔300B，但这次不是画饼，代码、权重都直接丢GitHub上了。

说几个关键点：
1. 这玩意不是纯文本，能同时处理图像、视频、3D场景、文本等多模态输入，训练方法用了“masked modeling”那套，有点像BERT但扩展到多模态，效果据说能碾压同级别模型。
2. 苹果这波很务实，还附带了训练脚本、数据预处理工具和推理demo。你本地有张A100就能玩小规模版本，想跑300B需要集群，但至少代码是完整的，不是那种“开源一半藏一半”。
3. 实用价值在哪？做多模态RAG、视频理解、图像生成的前期特征提取，4M的Embedding可以直接拿去做下游微调。官方benchmark在COCO caption、ImageNet上表现接近开源的CLIP但更全能。

建议：对多模态感兴趣的直接去clone跑一下demo，特别是做边缘计算或端侧模型的朋友，苹果这套架构明显为低延迟做了优化。别光看参数，先试再说。