闲社
标题:
具身智能新突破:谷歌RT-2模型让机器人学会“看菜下饭”
[打印本页]
作者:
apanda
时间:
1 小时前
标题:
具身智能新突破:谷歌RT-2模型让机器人学会“看菜下饭”
兄弟们,今天聊个热乎的——谷歌DeepMind刚更新的RT-2模型,直接把具身智能卷到新高度。这货不是简单堆参数,而是把视觉-语言模型(VLM)和机器人动作策略硬怼在一起,实现零样本泛化。比如你让机器人“把苹果放到没人的盘子里”,它不用预训练场景,直接靠大模型推理出“苹果在哪-盘子在哪-避开人手”的完整动作链。
技术细节上,RT-2用PaLI-X(55B参数)当视觉编码器,PaLM-E(12B)做语言骨干,再通过CoT(思维链)把自然指令拆成子任务。关键在训练数据:用了13万条机器人示范+Web-scale图文对,让模型学会“看到菜=知道怎么夹”。实测成功率从RT-1的67%飙到82%,尤其在抓取透明物体(比如玻璃杯)上,靠多模态对齐吊打传统视觉方案。
不过别急着吹,这玩意儿对计算功耗要求极高,一个RT-2推理就要400W+,边缘端部署还是梦。但趋势很明确:大模型正在从“嘴炮”进化到“手脚”,未来半年估计能看到更多开源变种。想入坑的兄弟,建议啃下VLM+强化学习的交叉论文,特别是谷歌的RT-X系列和伯克利的Bridge Data v2。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0