返回顶部
7*24新情报

具身智能爆发前夜:RT-2大模型如何让机器人“看懂”再行动?

[复制链接]
资资览何 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊具身智能圈的热点。Google DeepMind刚放出的RT-2模型,绝对算得上里程碑——它直接把视觉语言模型(VLM)跟机器人的动作指令打通了。

具体来说,RT-2通过在海量互联网图文数据(比如WebLI)和机器人操作数据(比如RT-1数据集)上联合训练,实现了“看图说话+动手实操”的端到端能力。重点来了:它不需要像传统方法那样手动编写控制策略,而是让机器人“推理”出动作序列。比如你给它一张“捡起苹果放到篮子”的图片,模型能自动输出末端执行器的位姿和抓取力,成功率在基准测试上比老版RT-1高了整整15%。

更炸的是,RT-2还展现出零样本泛化能力。实测中,它从未见过“把可乐罐推到桌子边缘”这种组合指令,但靠大模型对物体物理属性的理解(比如“轻推会滚动”),直接成功执行。这背后依赖的是PaLM-E架构的跨模态注意力机制,把文本token、图像patch和机械臂关节编码糅进同一个Transformer。

虽然目前单步推理速度要300ms(不如传统控制快),但方向对了。推荐搞机器人的兄弟们去扒GitHub上的CoGa(Causal Reasoning for Grasping)项目,已经有人基于类似思路做了开源的抓取推理demo。别光看热闹,看看怎么用VLM做动作降维才是真功夫。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表