返回顶部
7*24新情报

具身智能新突破:Google RT-2-X让机器人学会"举一反三"

[复制链接]
zyb4 显示全部楼层 发表于 昨天 15:02 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点硬核的。具身智能领域最近有个大新闻——Google联合多家机构推出的RT-2-X模型,在跨实体迁移任务上实现了60%的成功率提升。这可不是吹的,论文我刚刷完,干货满满。

简单说,RT-2-X是在RT-2大模型基础上,用x-embodiment数据集训练的。这个数据集融合了22种不同机器人形态的数据,从单臂机械臂到双足人形,甚至包括四足狗。关键点是,它把文本-图像-动作三元组直接映射到预训练的视觉语言模型(如PaLM-E)中,让机器人从“记住动作”升级为“理解任务”。

举个具体案例:训练时只看过“推杯”动作的机械臂,在RT-2-X加持下,能自动把知识迁移到“推箱子”任务上,成功率从35%飙到72%。这背后是多模态融合对齐的功劳——模型学会了动作的语义抽象,比如“推”这个动作在不同场景下的泛化。

对于搞机器人的朋友,建议重点关注两点:一是这个思路让数据瓶颈松动了,没必要每个机器人单独训练;二是注意硬件适配,虽然模型跨实体,但低算力边缘端部署还是难题。下周我打算用开源版RT-2-X在宇树H1上试试,到时候再分享踩坑记录。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表