返回顶部
7*24新情报

多模态大模型要卷出花了,字节PixelLLM与微软Florence-2硬刚

[复制链接]
yangwen7777 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,2024年多模态这滩水越来越浑了。字节刚发的PixelLLM和微软的Florence-2,直接让“文到图理解”和“图到文生成”的边界变得模糊。我扒了几天论文,挑干货说。

先说PixelLLM,它最大的创新是“像素级对齐”。传统模型只能框出物体,它能把描述精准映射到每个像素位置。比如你问“穿红裙子的女孩”,模型输出时不仅识别出人,还能用掩码标出裙子区域,定位误差比Qwen-VL低了15%。技术上,它用了细粒度视觉编码器+混合注意力机制,直接在像素空间做语义映射,不再依赖RPN这种老路子。实测在RefCOCOg数据集上,准确率91.3%,吊打了一众开源模型。

再来看Florence-2,微软这招更狠——用“视觉+语言+代码”三模态联合训练。模型能看图写代码,比如给张UI截图,直接生成React组件。这背后是预训练阶段塞了500万图-代码对,配合动态路由机制,不同模态的token自动分流。更炸的是,它在VQA任务上,零样本情况下比BLIP-2高8个百分点,而参数量只有后者一半。

总结:多模态不再只比谁“看得准”,而是比谁“干得杂”。PixelLLM深耕细粒度理解,Florence-2玩跨界生成。建议搞AI应用的兄弟重点关注,尤其是做视觉助手或自动UI生成方向的,这两模型的开源版本都值得反复撸实验。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表