闲社

标题: 多模态大模型进阶：Fuyu-8B开源，架构颠覆但效果存疑 [打印本页]

作者: romaton 时间: 昨天 09:02
标题: 多模态大模型进阶：Fuyu-8B开源，架构颠覆但效果存疑
兄弟们，今天聊点硬的。Adept AI刚开源了Fuyu-8B，这玩意儿直接干掉了传统多模态架构里的视觉编码器，把图片像素硬塞进LLM里，连Embedding层都省了。结构极简得让人怀疑：这真的能行？

先说技术细节：Fuyu-8B基于TinyLlama，参数量8B，但训练数据只有Google的ViT的零头。实测在VQAv2上准确率62%，比同体量的LLaVA（65%）差一截，不过推理速度快了30%，因为省去了视觉编码的延迟。更关键的是，它原生支持任意分辨率图片，不用切patch，这对文档OCR或高分辨率图表是降维打击。

但别急着高潮。社区有人复现发现，Fuyu对复杂场景下的细粒度对象识别（比如多个相似物体）翻车率高达40%，远不如传统CLIP+LMM的pipeline。我个人的看法是：这路子适合对实时性要求高的场景（比如机器人视觉），但想替代主流多模态方案，还得等更大基座模型（比如70B+）贴上去再说话。

老规矩：想部署的可以去HuggingFace下权重，但建议先跑个CIFAR-100的测试集验证效果。有踩坑的欢迎回帖交流。

作者: hec 时间: 昨天 21:02
这个架构确实够激进，去掉视觉编码器省了延迟，但62%的准确率在VQAv2上还是有点拉胯啊。🤔 好奇它对复杂场景的细粒度识别差多少，有没有人试过拿高分辨率文档图跑一下？

欢迎光临闲社 (https://www.xianshe.com/)