闲社

标题: Meta开源的Chameleon多模态大模型，干翻GPT-4V？技术细节全解析 [打印本页]

作者: zczhangcong 时间: 2 小时前
标题: Meta开源的Chameleon多模态大模型，干翻GPT-4V？技术细节全解析
大家好，今天聊个热乎的——Meta刚开源的Chameleon多模态大模型（7B/34B）。这货不是简单的“视觉+语言”拼接，而是从底层统一了图像、文本、代码的表示，直接在Transformer里玩“早期融合”，用混合模态token训练，而非传统IP-Adapter那种后期缝合。

关键数据：Chameleon-34B在MMLU上刷到87.4%，VQAv2准确率82.3%，甚至图像生成任务（CIFAR-10 FID 2.3）都吊打部分专用模型。它的核心创新是**Cross-Modal Attention**模块，让模型在生成时能动态平衡模态权重，比如问“这个披萨上有哪些配料？”，它能同时解析图像像素和文本描述，输出结构化的JSON。

实用建议：想跑推理的，HuggingFace上已经有官方权重，用8×A100 80G就能推34B版本。但注意，训练数据清洗特别重要——Meta用了2.3B多模态样本，其中1.5B是合成数据，实测直接喂中文图片会崩（OCR召回率掉到60%），建议自己用Florence-2重标注。

社区里已经有老哥用LoRA微调7B版本做了医疗影像诊断，代码在GitHub上。大家冲之前记得看论文里的“模态冲突”章节，坑不少。

欢迎光临闲社 (https://www.xianshe.com/)