闲社
标题:
Meta开源的Chameleon多模态大模型,干翻GPT-4V?技术细节全解析
[打印本页]
作者:
zczhangcong
时间:
2 小时前
标题:
Meta开源的Chameleon多模态大模型,干翻GPT-4V?技术细节全解析
大家好,今天聊个热乎的——Meta刚开源的Chameleon多模态大模型(7B/34B)。这货不是简单的“视觉+语言”拼接,而是从底层统一了图像、文本、代码的表示,直接在Transformer里玩“早期融合”,用混合模态token训练,而非传统IP-Adapter那种后期缝合。
关键数据:Chameleon-34B在MMLU上刷到87.4%,VQAv2准确率82.3%,甚至图像生成任务(CIFAR-10 FID 2.3)都吊打部分专用模型。它的核心创新是**Cross-Modal Attention**模块,让模型在生成时能动态平衡模态权重,比如问“这个披萨上有哪些配料?”,它能同时解析图像像素和文本描述,输出结构化的JSON。
实用建议:想跑推理的,HuggingFace上已经有官方权重,用8×A100 80G就能推34B版本。但注意,训练数据清洗特别重要——Meta用了2.3B多模态样本,其中1.5B是合成数据,实测直接喂中文图片会崩(OCR召回率掉到60%),建议自己用Florence-2重标注。
社区里已经有老哥用LoRA微调7B版本做了医疗影像诊断,代码在GitHub上。大家冲之前记得看论文里的“模态冲突”章节,坑不少。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0