兄弟们,今天聊聊具身智能圈的热点。Google DeepMind刚放出的RT-2模型,绝对算得上里程碑——它直接把视觉语言模型(VLM)跟机器人的动作指令打通了。
具体来说,RT-2通过在海量互联网图文数据(比如WebLI)和机器人操作数据(比如RT-1数据集)上联合训练,实现了“看图说话+动手实操”的端到端能力。重点来了:它不需要像传统方法那样手动编写控制策略,而是让机器人“推理”出动作序列。比如你给它一张“捡起苹果放到篮子”的图片,模型能自动输出末端执行器的位姿和抓取力,成功率在基准测试上比老版RT-1高了整整15%。
更炸的是,RT-2还展现出零样本泛化能力。实测中,它从未见过“把可乐罐推到桌子边缘”这种组合指令,但靠大模型对物体物理属性的理解(比如“轻推会滚动”),直接成功执行。这背后依赖的是PaLM-E架构的跨模态注意力机制,把文本token、图像patch和机械臂关节编码糅进同一个Transformer。
虽然目前单步推理速度要300ms(不如传统控制快),但方向对了。推荐搞机器人的兄弟们去扒GitHub上的CoGa(Causal Reasoning for Grasping)项目,已经有人基于类似思路做了开源的抓取推理demo。别光看热闹,看看怎么用VLM做动作降维才是真功夫。 |