返回顶部
u

ui-element-opsUI元素操作

Parse UI screenshots into structured element JSON (type, OCR text, bbox) and operate desktop UI from parsed elements. Use when a user asks to detect/locate UI elements, return coordinates, find elements by text/type, wait for element appearance or disappearance, click/type/press keys/hotkeys, take screenshots, or calibrate coordinates for multi-display/DPI/window offsets.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
462
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ui-element-ops

UI 元素操作

将一张或多张截图解析为机器可读的 JSON 结构,包含:

  • - type(标准化 UI 元素类型)
  • bboxpx 和 bboxnorm
  • text(可用时的 OCR/字幕内容)
  • clickable 标记
  • 可选带标签框的叠加图像
  • 通过 scripts/operateui.py 执行的桌面操作(点击/输入/按键/热键/截图)
  • 通过 scripts/operateui.py 实现的元素查询与编排(find、wait)
  • 用于多显示器/DPI/窗口偏移的坐标校准配置文件(calibrate)

快速开始

  1. 1. 每台机器只需准备一次运行环境:
bash skills/ui-element-ops/scripts/bootstrapomniparserenv.sh $PWD
  1. 2. 解析一张截图:
bash skills/ui-element-ops/scripts/runparseui.sh /abs/path/to/1.jpeg
  1. 3. 读取输出:
  • - .elements.json
  • .overlay.png
  1. 4. 一步完成截图+解析,使用随机名称:
bash skills/ui-element-ops/scripts/captureandparse.sh

工作流程

  1. 1. 确认截图路径和期望的输出路径。
  2. 当缺少 .venv 或 OmniParser 权重时,运行 scripts/bootstrapomniparserenv.sh。
  3. 运行 scripts/runparseui.sh 进行标准解析。
  4. 报告绝对输出路径和汇总计数:total、clickable、by_type。
  5. 对于小字体或密集图标布局,指出明显的质量风险。
  6. 按需执行桌面操作:
- 列出元素:python3 skills/ui-element-ops/scripts/operate_ui.py list --elements - 查找元素:python3 skills/ui-element-ops/scripts/operate_ui.py find --elements --type button --text-contains login - 等待出现/消失:python3 skills/ui-element-ops/scripts/operate_ui.py wait --elements --state appear --text-contains continue - 按 ID 点击:python3 skills/ui-element-ops/scripts/operateui.py click --elements --id e0001 - 截图:python3 skills/ui-element-ops/scripts/operate_ui.py screenshot(默认保存到用户临时目录) - 校准坐标:python3 skills/ui-element-ops/scripts/operate_ui.py calibrate --parsed-size --actual-size

可调参数

  • - 在 references/typerules.example.json 中编辑类型映射关键词。
  • 通过 scripts/parseui.py --help 使用高级解析器参数。
  • 仅在安装了 paddleocr/paddlepaddle 时使用 --use-paddleocr。

输出

  • - 主要 JSON 输出:
- schema_version、pipeline、image、counts、elements - 每个元素包含 id、type、bboxpx、bboxnorm、text、clickable
  • - 叠加 PNG 输出:
- 带有标记检测框的同一截图

故障处理

  • - 缺少依赖或权重:重新运行引导脚本。
  • $HOME 下的权限/缓存错误:将临时缓存保存在 /tmp 下(由运行脚本处理)。
  • 仅 CPU 机器:推理速度会较慢。
  • 性能说明:解析/截图并解析命令较重;避免非常紧密的循环,尽可能重用最近的 elements.json。
  • 无头环境限制:
- 无 GUI 可用:对现有文件进行解析/列表/查找/等待/校准。 - 需要 GUI 会话:点击/点击坐标/输入/按键/热键/截图/屏幕信息。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ui-element-ops-1776295088 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ui-element-ops-1776295088 技能

通过命令行安装

skillhub install ui-element-ops-1776295088

下载

⬇ 下载 ui-element-ops v1.0.2(免费)

文件大小: 17.89 KB | 发布时间: 2026-4-16 17:45

v1.0.2 最新 2026-4-16 17:45
- Add performance note advising not to use parse/capture-and-parse commands in tight loops and to reuse recent elements.json outputs when possible.
- No code changes; documentation update only.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部