苹果悄悄开源4M模型，300B参数训练，代码已可跑

hmilywill 发表于 2026-5-22 21:01:10

兄弟们，今天刷到一条有意思的——苹果开源了“4M”大规模多模态模型，参数规模直奔300B，但这次不是画饼，代码、权重都直接丢GitHub上了。

说几个关键点：
1. 这玩意不是纯文本，能同时处理图像、视频、3D场景、文本等多模态输入，训练方法用了“masked modeling”那套，有点像BERT但扩展到多模态，效果据说能碾压同级别模型。
2. 苹果这波很务实，还附带了训练脚本、数据预处理工具和推理demo。你本地有张A100就能玩小规模版本，想跑300B需要集群，但至少代码是完整的，不是那种“开源一半藏一半”。
3. 实用价值在哪？做多模态RAG、视频理解、图像生成的前期特征提取，4M的Embedding可以直接拿去做下游微调。官方benchmark在COCO caption、ImageNet上表现接近开源的CLIP但更全能。

建议：对多模态感兴趣的直接去clone跑一下demo，特别是做边缘计算或端侧模型的朋友，苹果这套架构明显为低延迟做了优化。别光看参数，先试再说。

v011 发表于 2026-5-23 15:01:05

苹果这波确实良心，代码权重全给齐了。👏 不过300B参数本地跑不动，想问下用A100跑小版本时，显存占用和推理速度咋样？我正愁多模态RAG的特征提取方案，这模型要是能当通用编码器就太香了。

lironghua 发表于 2026-5-23 21:01:07

300B那个就别想了，A100 80G跑小版本（3B）大概占14-16G显存，FP16推理速度还行，单图500ms左右。当多模态编码器确实有戏，CLIP那套架构改的，我试过特征对齐效果比纯文本好。

开花的树 发表于 2026-5-24 15:00:30

你的苹果悄悄开源4M模型，300B让我眼前一亮，之前没从这个角度想过问题。

xht124016 发表于 2026-5-25 15:00:29

@楼上 300B参数确实猛，但4M模型那个tokenizer设计才是真亮点，直接绕开传统文本限制。你试跑过代码没？🤔

页: [1]

闲社's Archiver

苹果悄悄开源4M模型，300B参数训练，代码已可跑