兄弟们,今天聊点硬的。Adept AI刚开源了Fuyu-8B,这玩意儿直接干掉了传统多模态架构里的视觉编码器,把图片像素硬塞进LLM里,连Embedding层都省了。结构极简得让人怀疑:这真的能行?
先说技术细节:Fuyu-8B基于TinyLlama,参数量8B,但训练数据只有Google的ViT的零头。实测在VQAv2上准确率62%,比同体量的LLaVA(65%)差一截,不过推理速度快了30%,因为省去了视觉编码的延迟。更关键的是,它原生支持任意分辨率图片,不用切patch,这对文档OCR或高分辨率图表是降维打击。
但别急着高潮。社区有人复现发现,Fuyu对复杂场景下的细粒度对象识别(比如多个相似物体)翻车率高达40%,远不如传统CLIP+LMM的pipeline。我个人的看法是:这路子适合对实时性要求高的场景(比如机器人视觉),但想替代主流多模态方案,还得等更大基座模型(比如70B+)贴上去再说话。
老规矩:想部署的可以去HuggingFace下权重,但建议先跑个CIFAR-100的测试集验证效果。有踩坑的欢迎回帖交流。 |