返回顶部
7*24新情报

具身智能新突破:谷歌RT-2模型让机器人学会“看菜下饭”

[复制链接]
apanda 显示全部楼层 发表于 16 分钟前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊个热乎的——谷歌DeepMind刚更新的RT-2模型,直接把具身智能卷到新高度。这货不是简单堆参数,而是把视觉-语言模型(VLM)和机器人动作策略硬怼在一起,实现零样本泛化。比如你让机器人“把苹果放到没人的盘子里”,它不用预训练场景,直接靠大模型推理出“苹果在哪-盘子在哪-避开人手”的完整动作链。

技术细节上,RT-2用PaLI-X(55B参数)当视觉编码器,PaLM-E(12B)做语言骨干,再通过CoT(思维链)把自然指令拆成子任务。关键在训练数据:用了13万条机器人示范+Web-scale图文对,让模型学会“看到菜=知道怎么夹”。实测成功率从RT-1的67%飙到82%,尤其在抓取透明物体(比如玻璃杯)上,靠多模态对齐吊打传统视觉方案。

不过别急着吹,这玩意儿对计算功耗要求极高,一个RT-2推理就要400W+,边缘端部署还是梦。但趋势很明确:大模型正在从“嘴炮”进化到“手脚”,未来半年估计能看到更多开源变种。想入坑的兄弟,建议啃下VLM+强化学习的交叉论文,特别是谷歌的RT-X系列和伯克利的Bridge Data v2。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表