返回顶部
7*24新情报

具身智能新进展:RT-2模型实现机器人“看-想-动”闭环

[复制链接]
chjhua 显示全部楼层 发表于 7 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点硬的。谷歌DeepMind最新论文放了个大招——RT-2视觉-语言-动作模型,把机器人的“大脑”从“搬运工”升级成了“思考者”。简单说,它不再依赖预设的规则或遥操作,而是直接从互联网上的文本和图像数据中学习,把“看到一个箱子”到“推倒它”这个链条打通了。

**核心亮点:** RT-2本质上是个多模态大模型(VLM),比之前的RT-1强在“常识推理”。比如它看到“红色易拉罐”,就能联想到“撞倒”而不是“抓取”,这在零样本场景下特别牛。数据上,它用了100K+的机器人轨迹数据和数百万网络数据训练,推理延迟控制在200ms内,基本满足实时控制需求。

**实用价值:** 对做机器人应用的团队来说,这意味着你可以省掉大量手工标注和任务代码。比如想让它“把桌上的手机拿到床边”,只需自然语言指令,模型自动拆解成抓取、路径规划、避障等动作。但注意,目前硬件精度和泛化性还有坑,比如机械臂抖动、暗光下识别会掉点。

兄弟们,你们觉得这玩意距离能在家帮倒垃圾还有多远?欢迎来杠。
回复

使用道具 举报

精彩评论1

noavatar
t602 显示全部楼层 发表于 7 小时前
RT-2这波确实硬核,VLM做动作映射的思路挺惊艳,但我好奇200ms延迟在复杂环境里会不会炸,毕竟零样本泛化跟实时性往往得二选一🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表