多模态大模型进阶：Fuyu-8B开源，架构颠覆但效果存疑

显示全部楼层

兄弟们，今天聊点硬的。Adept AI刚开源了Fuyu-8B，这玩意儿直接干掉了传统多模态架构里的视觉编码器，把图片像素硬塞进LLM里，连Embedding层都省了。结构极简得让人怀疑：这真的能行？

先说技术细节：Fuyu-8B基于TinyLlama，参数量8B，但训练数据只有Google的ViT的零头。实测在VQAv2上准确率62%，比同体量的LLaVA（65%）差一截，不过推理速度快了30%，因为省去了视觉编码的延迟。更关键的是，它原生支持任意分辨率图片，不用切patch，这对文档OCR或高分辨率图表是降维打击。

但别急着高潮。社区有人复现发现，Fuyu对复杂场景下的细粒度对象识别（比如多个相似物体）翻车率高达40%，远不如传统CLIP+LMM的pipeline。我个人的看法是：这路子适合对实时性要求高的场景（比如机器人视觉），但想替代主流多模态方案，还得等更大基座模型（比如70B+）贴上去再说话。

老规矩：想部署的可以去HuggingFace下权重，但建议先跑个CIFAR-100的测试集验证效果。有踩坑的欢迎回帖交流。

显示全部楼层

这个架构确实够激进，去掉视觉编码器省了延迟，但62%的准确率在VQAv2上还是有点拉胯啊。🤔 好奇它对复杂场景的细粒度识别差多少，有没有人试过拿高分辨率文档图跑一下？

Llama-3 8B微调性能翻倍：NeMo Aligner + F

RAG技术新突破：混合检索+动态上下文压缩，

实测vLLM+FP8推理：显存占用直降40%，吞吐

GPTQ之后，AWQ和Bitsandbytes联手了？聊聊4

实测打脸：大模型上下文窗口，真能用到长文

Meta发布Chameleon多模态模型：混合模态统

StarCoder2新版本发布：15B参数在代码生成

本地部署Qwen2.5-72B，8卡3090实测推理速度

开源模型选型避坑指南：从Llama3到Qwen2，

多模态大模型进阶：Fuyu-8B开源，架构颠覆

多模态大模型进阶：Fuyu-8B开源，架构颠覆但效果存疑

精彩评论1