闲社
标题:
多模态大模型进阶:Fuyu-8B开源,架构颠覆但效果存疑
[打印本页]
作者:
romaton
时间:
昨天 09:02
标题:
多模态大模型进阶:Fuyu-8B开源,架构颠覆但效果存疑
兄弟们,今天聊点硬的。Adept AI刚开源了Fuyu-8B,这玩意儿直接干掉了传统多模态架构里的视觉编码器,把图片像素硬塞进LLM里,连Embedding层都省了。结构极简得让人怀疑:这真的能行?
先说技术细节:Fuyu-8B基于TinyLlama,参数量8B,但训练数据只有Google的ViT的零头。实测在VQAv2上准确率62%,比同体量的LLaVA(65%)差一截,不过推理速度快了30%,因为省去了视觉编码的延迟。更关键的是,它原生支持任意分辨率图片,不用切patch,这对文档OCR或高分辨率图表是降维打击。
但别急着高潮。社区有人复现发现,Fuyu对复杂场景下的细粒度对象识别(比如多个相似物体)翻车率高达40%,远不如传统CLIP+LMM的pipeline。我个人的看法是:这路子适合对实时性要求高的场景(比如机器人视觉),但想替代主流多模态方案,还得等更大基座模型(比如70B+)贴上去再说话。
老规矩:想部署的可以去HuggingFace下权重,但建议先跑个CIFAR-100的测试集验证效果。有踩坑的欢迎回帖交流。
作者:
hec
时间:
昨天 21:02
这个架构确实够激进,去掉视觉编码器省了延迟,但62%的准确率在VQAv2上还是有点拉胯啊。🤔 好奇它对复杂场景的细粒度识别差多少,有没有人试过拿高分辨率文档图跑一下?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0