闲社 › 开发社区 › 模型社区 › 具身智能新突破：谷歌RT-2模型让机器人学会“看菜下饭” ...

apanda

发帖数30
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-06-13 [模型社区]

Stable Diffusion 3.5 Turbo实测：5秒出图

兄弟们，昨晚SD官方放出了3.5 Turbo测试版，我连夜跑了一波，结论是真香。这次优化核

2026-06-13 [模型社区]

LlamaIndex发布Agent RAG新范式：动态路由+

兄弟们，今天聊聊AI Agent开发的一个新动向。昨天，LlamaIndex悄悄更新了一个Agent RA

2026-06-13 [模型社区]

AWQ与GPTQ之后：W4A4量化方案DeepShift实测

兄弟们，今天聊个热乎的。模型量化这块，之前大家基本都在玩W8A8或W4A16（比如GPTQ、A

2026-06-13 [模型社区]

DeepSeek-Coder-V2开源：272B代码模型碾压G

兄弟们，今天代码生成圈又炸了——DeepSeek-Coder-V2正式开源！基于MoE架构，272B参数

2026-06-13 [模型社区]

具身智能新突破：谷歌RT-2模型让机器人学会

兄弟们，今天聊个热乎的——谷歌DeepMind刚更新的RT-2模型，直接把具身智能卷到新高度

2026-06-13 [模型社区]

开源模型选型避坑指南：从Llama 3到Qwen2，

兄弟们，最近开源模型扎堆发布，Llama 3 70B、Qwen2-72B、Gemma 2 27B轮番上阵，但选

2026-06-13 [模型社区]

Midjourney V6实测翻车？我跑了50组Prompt

兄弟们，今天聊聊Midjourney V6正式版落地的一些细节。很多人吹它“摄影级真实感”，

2026-06-13 [模型社区]

FlashAttention-3实测：H100上推理提速2.6

兄弟们，今天聊个硬核的。NVIDIA刚放出的FlashAttention-3，我连夜在H100上跑了几个基

2026-06-12 [模型社区]

DeepSeek实测体验：长上下文稳如老狗，推理

今天花了一整天用DeepSeek跑了几轮复杂场景测试，先给结论：这模型在长上下文处理上确

2026-06-12 [模型社区]

实测：最新LLM API接入，成本降40%、延迟减

兄弟们，今天聊聊大模型API接入的最新动态。刚测试完几家主流服务商的更新，特别是Dee

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 AI技术新风向：3D重建、模型革新与智能硬件的融合

4 深入浅出：架构设计的艺术与挑战🤓

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 openclaw的怎么升级

7 整理了一些学习资料

8 整理了一些学习资料

9 分享一些实用的开发工具

10 分享一些实用的脚本工具

具身智能新突破：谷歌RT-2模型让机器人学会“看菜下饭”

[复制链接]

apanda 显示全部楼层 发表于 16 分钟前 |阅读模式

兄弟们，今天聊个热乎的——谷歌DeepMind刚更新的RT-2模型，直接把具身智能卷到新高度。这货不是简单堆参数，而是把视觉-语言模型（VLM）和机器人动作策略硬怼在一起，实现零样本泛化。比如你让机器人“把苹果放到没人的盘子里”，它不用预训练场景，直接靠大模型推理出“苹果在哪-盘子在哪-避开人手”的完整动作链。

技术细节上，RT-2用PaLI-X（55B参数）当视觉编码器，PaLM-E（12B）做语言骨干，再通过CoT（思维链）把自然指令拆成子任务。关键在训练数据：用了13万条机器人示范+Web-scale图文对，让模型学会“看到菜=知道怎么夹”。实测成功率从RT-1的67%飙到82%，尤其在抓取透明物体（比如玻璃杯）上，靠多模态对齐吊打传统视觉方案。

不过别急着吹，这玩意儿对计算功耗要求极高，一个RT-2推理就要400W+，边缘端部署还是梦。但趋势很明确：大模型正在从“嘴炮”进化到“手脚”，未来半年估计能看到更多开源变种。想入坑的兄弟，建议啃下VLM+强化学习的交叉论文，特别是谷歌的RT-X系列和伯克利的Bridge Data v2。