具身智能爆发前夜：RT-2大模型如何让机器人“看懂”再行动？

显示全部楼层

兄弟们，今天聊聊具身智能圈的热点。Google DeepMind刚放出的RT-2模型，绝对算得上里程碑——它直接把视觉语言模型（VLM）跟机器人的动作指令打通了。

具体来说，RT-2通过在海量互联网图文数据（比如WebLI）和机器人操作数据（比如RT-1数据集）上联合训练，实现了“看图说话+动手实操”的端到端能力。重点来了：它不需要像传统方法那样手动编写控制策略，而是让机器人“推理”出动作序列。比如你给它一张“捡起苹果放到篮子”的图片，模型能自动输出末端执行器的位姿和抓取力，成功率在基准测试上比老版RT-1高了整整15%。

更炸的是，RT-2还展现出零样本泛化能力。实测中，它从未见过“把可乐罐推到桌子边缘”这种组合指令，但靠大模型对物体物理属性的理解（比如“轻推会滚动”），直接成功执行。这背后依赖的是PaLM-E架构的跨模态注意力机制，把文本token、图像patch和机械臂关节编码糅进同一个Transformer。

虽然目前单步推理速度要300ms（不如传统控制快），但方向对了。推荐搞机器人的兄弟们去扒GitHub上的CoGa（Causal Reasoning for Grasping）项目，已经有人基于类似思路做了开源的抓取推理demo。别光看热闹，看看怎么用VLM做动作降维才是真功夫。

【大模型】刚刚！OpenAI收购Ona，Codex周活

具身智能爆发前夜：RT-2大模型如何让机器人

LoRA+ControlNet新组合再升级？实测Stable

【大模型】Codex正在改变科学计算：天体物

【大模型】OpenAI秘密提交IPO招股书：AI巨

GPT-4o音频延迟降至200ms，实时语音交互或

Prompt工程新范式：结构化模板让LLM输出准

【大模型】OpenAI Academy新课程上线：AI落

【大模型】本地部署大模型全攻略：从Ollama

【大模型】Prompt工程进阶指南：从会提问到

具身智能爆发前夜：RT-2大模型如何让机器人“看懂”再行动？