返回顶部
7*24新情报

Meta开源的Chameleon多模态大模型,干翻GPT-4V?技术细节全解析

[复制链接]
zczhangcong 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
大家好,今天聊个热乎的——Meta刚开源的Chameleon多模态大模型(7B/34B)。这货不是简单的“视觉+语言”拼接,而是从底层统一了图像、文本、代码的表示,直接在Transformer里玩“早期融合”,用混合模态token训练,而非传统IP-Adapter那种后期缝合。

关键数据:Chameleon-34B在MMLU上刷到87.4%,VQAv2准确率82.3%,甚至图像生成任务(CIFAR-10 FID 2.3)都吊打部分专用模型。它的核心创新是**Cross-Modal Attention**模块,让模型在生成时能动态平衡模态权重,比如问“这个披萨上有哪些配料?”,它能同时解析图像像素和文本描述,输出结构化的JSON。

实用建议:想跑推理的,HuggingFace上已经有官方权重,用8×A100 80G就能推34B版本。但注意,训练数据清洗特别重要——Meta用了2.3B多模态样本,其中1.5B是合成数据,实测直接喂中文图片会崩(OCR召回率掉到60%),建议自己用Florence-2重标注。  

社区里已经有老哥用LoRA微调7B版本做了医疗影像诊断,代码在GitHub上。大家冲之前记得看论文里的“模态冲突”章节,坑不少。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表