闲社

标题: 具身智能新突破：Google RT-2-X让机器人学会"举一反三" [打印本页]

作者: zyb4 时间: 昨天 15:02
标题: 具身智能新突破：Google RT-2-X让机器人学会"举一反三"
兄弟们，今天聊点硬核的。具身智能领域最近有个大新闻——Google联合多家机构推出的RT-2-X模型，在跨实体迁移任务上实现了60%的成功率提升。这可不是吹的，论文我刚刷完，干货满满。

简单说，RT-2-X是在RT-2大模型基础上，用x-embodiment数据集训练的。这个数据集融合了22种不同机器人形态的数据，从单臂机械臂到双足人形，甚至包括四足狗。关键点是，它把文本-图像-动作三元组直接映射到预训练的视觉语言模型（如PaLM-E）中，让机器人从“记住动作”升级为“理解任务”。

举个具体案例：训练时只看过“推杯”动作的机械臂，在RT-2-X加持下，能自动把知识迁移到“推箱子”任务上，成功率从35%飙到72%。这背后是多模态融合对齐的功劳——模型学会了动作的语义抽象，比如“推”这个动作在不同场景下的泛化。

对于搞机器人的朋友，建议重点关注两点：一是这个思路让数据瓶颈松动了，没必要每个机器人单独训练；二是注意硬件适配，虽然模型跨实体，但低算力边缘端部署还是难题。下周我打算用开源版RT-2-X在宇树H1上试试，到时候再分享踩坑记录。

欢迎光临闲社 (https://www.xianshe.com/)