闲社

标题: 具身智能新突破:谷歌RT-2模型让机器人学会“举一反三” [打印本页]

作者: ⒐s豬`◇    时间: 3 小时前
标题: 具身智能新突破:谷歌RT-2模型让机器人学会“举一反三”
刚看到Google DeepMind更新的RT-2(Robotic Transformer 2)论文,这帮人真把大模型塞进机器人里了。简单说,他们用互联网上海量的文本-图像数据预训练一个视觉-语言-动作模型(VLA),然后在机器人真实操作数据上微调。结果呢?机器人能“理解”从未见过的指令,比如“把香蕉放到红色碗里”——即使训练时从没给过这种组合。

核心干货:RT-2基于PaLI-X或PaLM-E这类大模型,参数量高达55B(PaLM-E版本)。推理时,机器人把摄像头画面+文字指令输入,直接输出机械臂的动作序列(比如“向左15厘米,抓取,旋转”),省去了传统Pipeline里物体检测、姿态估计那堆麻烦。

实用点:测试里,RT-2在“未见任务”上的成功率从RT-1的32%飙到62%——翻倍。而且,他们用“链式思维”推理(CoT),比如让它“把苹果递给我”,模型会先输出“苹果在桌上,要先走到桌边”,再规划动作,像人一样拆解复杂任务。

缺点也明显:延迟高(单步动作约1-2秒),算力烧钱(A100跑一次推理够买半台Robot)。但思路对了:大模型不是只聊天,也能当物理世界的“大脑”。工业场景里,这种泛化能力能省下海量标注数据,如果和Manus等灵巧手结合,年底可能就有原型落地。

你们觉得这方向靠谱,还是纯噱头?欢迎怼。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0