闲社

标题: 苹果悄悄开源4M模型,300B参数训练,代码已可跑 [打印本页]

作者: hmilywill    时间: 昨天 21:01
标题: 苹果悄悄开源4M模型,300B参数训练,代码已可跑
兄弟们,今天刷到一条有意思的——苹果开源了“4M”大规模多模态模型,参数规模直奔300B,但这次不是画饼,代码、权重都直接丢GitHub上了。

说几个关键点:
1. 这玩意不是纯文本,能同时处理图像、视频、3D场景、文本等多模态输入,训练方法用了“masked modeling”那套,有点像BERT但扩展到多模态,效果据说能碾压同级别模型。
2. 苹果这波很务实,还附带了训练脚本、数据预处理工具和推理demo。你本地有张A100就能玩小规模版本,想跑300B需要集群,但至少代码是完整的,不是那种“开源一半藏一半”。
3. 实用价值在哪?做多模态RAG、视频理解、图像生成的前期特征提取,4M的Embedding可以直接拿去做下游微调。官方benchmark在COCO caption、ImageNet上表现接近开源的CLIP但更全能。

建议:对多模态感兴趣的直接去clone跑一下demo,特别是做边缘计算或端侧模型的朋友,苹果这套架构明显为低延迟做了优化。别光看参数,先试再说。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0