q_code

扫码关注官方微信

cell_code

扫码下载APP

返回顶部

V

Vision Sandbox视觉沙盒

Agentic Vision via Gemini's native Code Execution sandbox. Use for spatial grounding, visual math, and UI auditing.

作者: admin | 来源: ClawHub

下载

源自

ClawHub

版本

V 1.1.0

安全检测

已通过

5,605
下载量

免费
免费

1
收藏

概述

安装方式

版本历史

Vision Sandbox

技能名称: Vision Sandbox 🔭

详细描述:

Vision Sandbox 🔭

利用Gemini的原生代码执行功能，以高精度分析图像。该模型在Google托管的沙盒中编写并运行Python代码来验证视觉数据，非常适合UI审计、空间定位和视觉推理。

安装

bash
clawhub install vision-sandbox

使用

bash
uv run vision-sandbox --image path/to/image.png --prompt 识别所有按钮并提供[x, y]坐标。

模式库

📍 空间定位

让模型查找特定项目并返回坐标。

* 提示： 在此截图中定位提交按钮。使用代码执行验证其中心点，并以[0, 1000]比例返回[x, y]坐标。

🧮 视觉数学

让模型根据图像进行计数或计算。

* 提示： 统计列表中的项目数量。如果价格可见，使用Python计算它们的总值。

🖥️ UI审计

检查布局和可读性。

* 提示： 检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。

🖐️ 计数与逻辑

通过代码验证解决视觉计数任务。

* 提示： 统计这只手上的手指数量。使用代码执行识别每根手指的边界框，并返回总数。

与OpenCode集成

此技能旨在为OpenCode等自动化编码代理提供视觉定位功能。

- 步骤1： 使用vision-sandbox提取UI元数据（坐标、尺寸、颜色）。
步骤2： 将JSON输出传递给OpenCode，以生成或修复CSS/HTML。

配置

- GEMINIAPIKEY：必需的环境变量。
模型：默认使用gemini-3-flash-preview。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装：

OpenClaw WorkBuddy QClaw Kimi Claude

方式一：安装 SkillHub 和技能

帮我安装 SkillHub 和 vision-sandbox-1776374918 技能

方式二：设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源，然后帮我安装 vision-sandbox-1776374918 技能

通过命令行安装

skillhub install vision-sandbox-1776374918

下载

⬇ 下载 Vision Sandbox v1.1.0（免费）

文件大小: 7.6 KB | 发布时间: 2026-4-17 14:36

v1.1.0 最新 2026-4-17 14:36

Migrate to standard OpenClaw tool configuration

闲社论坛
定制服务闲社视频会员介绍开通会员
闲社论坛
智能体论坛技能自动化 AI服务市场大模型社区
网站服务
会员咨询：515151560 广告合作：515151570 投诉建议：515151580 售后指导：515151590

多链集团旗下-闲社网

闲社网热线

免费联系电话

0527-80111111

服务时间：周一到周日 8:00-24:00

公众号
闲社 APP下载闲社

关注闲社网

闲社在线客服
关注闲社网微信
闲社网APP

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0 © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large

返回顶部