闲社

标题: 具身智能新突破：谷歌RT-2模型让机器人学会“举一反三” [打印本页]

作者: ⒐s豬`◇ 时间: 3 小时前
标题: 具身智能新突破：谷歌RT-2模型让机器人学会“举一反三”
刚看到Google DeepMind更新的RT-2（Robotic Transformer 2）论文，这帮人真把大模型塞进机器人里了。简单说，他们用互联网上海量的文本-图像数据预训练一个视觉-语言-动作模型（VLA），然后在机器人真实操作数据上微调。结果呢？机器人能“理解”从未见过的指令，比如“把香蕉放到红色碗里”——即使训练时从没给过这种组合。

核心干货：RT-2基于PaLI-X或PaLM-E这类大模型，参数量高达55B（PaLM-E版本）。推理时，机器人把摄像头画面+文字指令输入，直接输出机械臂的动作序列（比如“向左15厘米，抓取，旋转”），省去了传统Pipeline里物体检测、姿态估计那堆麻烦。

实用点：测试里，RT-2在“未见任务”上的成功率从RT-1的32%飙到62%——翻倍。而且，他们用“链式思维”推理（CoT），比如让它“把苹果递给我”，模型会先输出“苹果在桌上，要先走到桌边”，再规划动作，像人一样拆解复杂任务。

缺点也明显：延迟高（单步动作约1-2秒），算力烧钱（A100跑一次推理够买半台Robot）。但思路对了：大模型不是只聊天，也能当物理世界的“大脑”。工业场景里，这种泛化能力能省下海量标注数据，如果和Manus等灵巧手结合，年底可能就有原型落地。

你们觉得这方向靠谱，还是纯噱头？欢迎怼。

欢迎光临闲社 (https://www.xianshe.com/)