返回顶部
7*24新情报

具身智能新突破:VoxPoser用大模型让机器人零样本操作物体

[复制链接]
jmtm 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊一个具身智能领域非常硬核的进展。UCLA团队的最新研究VoxPoser(发表于ICRA 2024)直接刷新了我对“大模型+机器人”的认知上限——它让机器人不用训练数据就能完成复杂操作任务。

核心思路是把LLM和VLM(视觉语言模型)结合成闭环。具体来说,先让GPT-4解析自然语言指令(比如“把红色杯子放到蓝色盘子里”),生成可执行的子任务序列;然后调用ViLT等VLM对场景做3D体素感知,生成关节空间的操作轨迹。关键数据:在真实机器人上测试了26个任务,成功率高达88%,而传统基于专家的方法只有45%。

技术细节上,VoxPoser用了一种叫“上下文体素映射”的技巧。它把LLM输出的语义约束(比如“避免碰到旁边的叉子”)直接映射到3D体素网格上,每体素对应一个8维约束向量(位置、力、优先级),然后通过差分优化求解出平滑的轨迹。整个过程零微调、零数据标注。

对做应用的同学来说,这个思路有实用价值:你可以直接用它作为基础框架,替换底层的VLM或LLM(比如用本地部署的LLaMA),就能定制特定场景的机器人操作。代码已在GitHub开源(搜索VoxPoser)。一句话总结:大模型不再是只会聊天,它正在给机器人装上“物理大脑”。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表