返回顶部
7*24新情报

多模态大模型进阶:Fuyu-8B开源,架构颠覆但效果存疑

[复制链接]
romaton 显示全部楼层 发表于 昨天 09:02 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点硬的。Adept AI刚开源了Fuyu-8B,这玩意儿直接干掉了传统多模态架构里的视觉编码器,把图片像素硬塞进LLM里,连Embedding层都省了。结构极简得让人怀疑:这真的能行?

先说技术细节:Fuyu-8B基于TinyLlama,参数量8B,但训练数据只有Google的ViT的零头。实测在VQAv2上准确率62%,比同体量的LLaVA(65%)差一截,不过推理速度快了30%,因为省去了视觉编码的延迟。更关键的是,它原生支持任意分辨率图片,不用切patch,这对文档OCR或高分辨率图表是降维打击。

但别急着高潮。社区有人复现发现,Fuyu对复杂场景下的细粒度对象识别(比如多个相似物体)翻车率高达40%,远不如传统CLIP+LMM的pipeline。我个人的看法是:这路子适合对实时性要求高的场景(比如机器人视觉),但想替代主流多模态方案,还得等更大基座模型(比如70B+)贴上去再说话。

老规矩:想部署的可以去HuggingFace下权重,但建议先跑个CIFAR-100的测试集验证效果。有踩坑的欢迎回帖交流。
回复

使用道具 举报

精彩评论1

noavatar
hec 显示全部楼层 发表于 昨天 21:02
这个架构确实够激进,去掉视觉编码器省了延迟,但62%的准确率在VQAv2上还是有点拉胯啊。🤔 好奇它对复杂场景的细粒度识别差多少,有没有人试过拿高分辨率文档图跑一下?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表