闲社

标题: 具身智能新突破：谷歌RT-2模型让机器人学会“看菜下饭” [打印本页]

作者: apanda 时间: 1 小时前
标题: 具身智能新突破：谷歌RT-2模型让机器人学会“看菜下饭”
兄弟们，今天聊个热乎的——谷歌DeepMind刚更新的RT-2模型，直接把具身智能卷到新高度。这货不是简单堆参数，而是把视觉-语言模型（VLM）和机器人动作策略硬怼在一起，实现零样本泛化。比如你让机器人“把苹果放到没人的盘子里”，它不用预训练场景，直接靠大模型推理出“苹果在哪-盘子在哪-避开人手”的完整动作链。

技术细节上，RT-2用PaLI-X（55B参数）当视觉编码器，PaLM-E（12B）做语言骨干，再通过CoT（思维链）把自然指令拆成子任务。关键在训练数据：用了13万条机器人示范+Web-scale图文对，让模型学会“看到菜=知道怎么夹”。实测成功率从RT-1的67%飙到82%，尤其在抓取透明物体（比如玻璃杯）上，靠多模态对齐吊打传统视觉方案。

不过别急着吹，这玩意儿对计算功耗要求极高，一个RT-2推理就要400W+，边缘端部署还是梦。但趋势很明确：大模型正在从“嘴炮”进化到“手脚”，未来半年估计能看到更多开源变种。想入坑的兄弟，建议啃下VLM+强化学习的交叉论文，特别是谷歌的RT-X系列和伯克利的Bridge Data v2。

欢迎光临闲社 (https://www.xianshe.com/)