返回顶部
V

Vision Sandbox视觉沙盒

Agentic Vision via Gemini's native Code Execution sandbox. Use for spatial grounding, visual math, and UI auditing.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.1.0
安全检测
已通过
5,605
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

Vision Sandbox

技能名称: Vision Sandbox 🔭

详细描述:

Vision Sandbox 🔭

利用Gemini的原生代码执行功能,以高精度分析图像。该模型在Google托管的沙盒中编写并运行Python代码来验证视觉数据,非常适合UI审计、空间定位和视觉推理。

安装

bash
clawhub install vision-sandbox

使用

bash
uv run vision-sandbox --image path/to/image.png --prompt 识别所有按钮并提供[x, y]坐标。

模式库

📍 空间定位

让模型查找特定项目并返回坐标。
  • * 提示: 在此截图中定位提交按钮。使用代码执行验证其中心点,并以[0, 1000]比例返回[x, y]坐标。

🧮 视觉数学

让模型根据图像进行计数或计算。
  • * 提示: 统计列表中的项目数量。如果价格可见,使用Python计算它们的总值。

🖥️ UI审计

检查布局和可读性。
  • * 提示: 检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。

🖐️ 计数与逻辑

通过代码验证解决视觉计数任务。
  • * 提示: 统计这只手上的手指数量。使用代码执行识别每根手指的边界框,并返回总数。

与OpenCode集成

此技能旨在为OpenCode等自动化编码代理提供视觉定位功能。
  • - 步骤1: 使用vision-sandbox提取UI元数据(坐标、尺寸、颜色)。
  • 步骤2: 将JSON输出传递给OpenCode,以生成或修复CSS/HTML。

配置

  • - GEMINIAPIKEY:必需的环境变量。
  • 模型:默认使用gemini-3-flash-preview。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 vision-sandbox-1776374918 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 vision-sandbox-1776374918 技能

通过命令行安装

skillhub install vision-sandbox-1776374918

下载

⬇ 下载 Vision Sandbox v1.1.0(免费)

文件大小: 7.6 KB | 发布时间: 2026-4-17 14:36

v1.1.0 最新 2026-4-17 14:36
Migrate to standard OpenClaw tool configuration

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部