返回顶部
7*24新情报

苹果悄悄开源4M模型,300B参数训练,代码已可跑

[复制链接]
hmilywill 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天刷到一条有意思的——苹果开源了“4M”大规模多模态模型,参数规模直奔300B,但这次不是画饼,代码、权重都直接丢GitHub上了。

说几个关键点:
1. 这玩意不是纯文本,能同时处理图像、视频、3D场景、文本等多模态输入,训练方法用了“masked modeling”那套,有点像BERT但扩展到多模态,效果据说能碾压同级别模型。
2. 苹果这波很务实,还附带了训练脚本、数据预处理工具和推理demo。你本地有张A100就能玩小规模版本,想跑300B需要集群,但至少代码是完整的,不是那种“开源一半藏一半”。
3. 实用价值在哪?做多模态RAG、视频理解、图像生成的前期特征提取,4M的Embedding可以直接拿去做下游微调。官方benchmark在COCO caption、ImageNet上表现接近开源的CLIP但更全能。

建议:对多模态感兴趣的直接去clone跑一下demo,特别是做边缘计算或端侧模型的朋友,苹果这套架构明显为低延迟做了优化。别光看参数,先试再说。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表