闲社
标题:
具身智能新突破:Google RT-2-X让机器人学会"举一反三"
[打印本页]
作者:
zyb4
时间:
昨天 15:02
标题:
具身智能新突破:Google RT-2-X让机器人学会"举一反三"
兄弟们,今天聊点硬核的。具身智能领域最近有个大新闻——Google联合多家机构推出的RT-2-X模型,在跨实体迁移任务上实现了60%的成功率提升。这可不是吹的,论文我刚刷完,干货满满。
简单说,RT-2-X是在RT-2大模型基础上,用x-embodiment数据集训练的。这个数据集融合了22种不同机器人形态的数据,从单臂机械臂到双足人形,甚至包括四足狗。关键点是,它把文本-图像-动作三元组直接映射到预训练的视觉语言模型(如PaLM-E)中,让机器人从“记住动作”升级为“理解任务”。
举个具体案例:训练时只看过“推杯”动作的机械臂,在RT-2-X加持下,能自动把知识迁移到“推箱子”任务上,成功率从35%飙到72%。这背后是多模态融合对齐的功劳——模型学会了动作的语义抽象,比如“推”这个动作在不同场景下的泛化。
对于搞机器人的朋友,建议重点关注两点:一是这个思路让数据瓶颈松动了,没必要每个机器人单独训练;二是注意硬件适配,虽然模型跨实体,但低算力边缘端部署还是难题。下周我打算用开源版RT-2-X在宇树H1上试试,到时候再分享踩坑记录。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0