返回顶部
w

windows-controlWindows桌面控制

Full Windows desktop control. Mouse, keyboard, screenshots - interact with any Windows application like a human.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
6,908
下载量
免费
免费
28
收藏
概述
安装方式
版本历史

windows-control

Windows 控制技能

Windows 全桌面自动化。像人类用户一样控制鼠标、键盘和屏幕。

快速开始

所有脚本位于 skills/windows-control/scripts/ 目录下

截屏

bash py screenshot.py > output.b64

返回整个屏幕的 base64 编码 PNG 图片。

点击

bash py click.py 500 300 # 在 (500, 300) 处左键单击 py click.py 500 300 right # 右键单击 py click.py 500 300 left 2 # 双击左键

输入文本

bash py type_text.py Hello World

在当前光标位置输入文本(按键间隔 10 毫秒)。

按键操作

bash py key_press.py enter py key_press.py ctrl+s py key_press.py alt+tab py key_press.py ctrl+shift+esc

移动鼠标

bash py mouse_move.py 500 300

将鼠标移动到指定坐标(0.2 秒平滑动画)。

滚动

bash py scroll.py up 5 # 向上滚动 5 格 py scroll.py down 10 # 向下滚动 10 格

窗口管理(新增!)

bash py focus_window.py Chrome # 将窗口置于前台 py minimize_window.py Notepad # 最小化窗口 py maximize_window.py VS Code # 最大化窗口 py close_window.py Calculator # 关闭窗口 py getactivewindow.py # 获取活动窗口标题

高级操作(新增!)

bash

按文本点击(无需坐标!)

py click_text.py Save # 点击任意位置的保存按钮 py click_text.py Submit Chrome # 仅在 Chrome 中点击提交

拖放操作

py drag.py 100 100 500 300 # 从 (100,100) 拖到 (500,300)

稳健自动化(等待/查找)

py waitfortext.py Ready App 30 # 等待文本出现,最长 30 秒 py waitforwindow.py Notepad 10 # 等待窗口出现 py find_text.py Login Chrome # 获取文本坐标 py list_windows.py # 列出所有打开的窗口

读取窗口文本

bash py read_window.py Notepad # 读取记事本中的所有文本 py read_window.py Visual Studio # 读取 VS Code 中的文本 py read_window.py Chrome # 读取浏览器中的文本

使用 Windows UI 自动化提取实际文本(非 OCR)。比截屏更快更准确!

读取 UI 元素(新增!)

bash py readuielements.py Chrome # 所有交互元素 py readuielements.py Chrome --buttons-only # 仅按钮 py readuielements.py Chrome --links-only # 仅链接 py readuielements.py Chrome --json # JSON 格式输出

返回按钮、链接、标签页、复选框、下拉菜单及其点击坐标。

读取网页内容(新增!)

bash py read_webpage.py # 读取活动浏览器 py read_webpage.py Chrome # 专门针对 Chrome py read_webpage.py Chrome --buttons # 包含按钮 py read_webpage.py Chrome --links # 包含链接及坐标 py read_webpage.py Chrome --full # 所有元素(输入框、图片) py read_webpage.py Chrome --json # JSON 格式输出

增强的浏览器内容提取,包含标题、文本、按钮和链接。

处理对话框(新增!)

bash

列出所有打开的对话框

py handle_dialog.py list

读取当前对话框内容

py handle_dialog.py read py handle_dialog.py read --json

点击对话框中的按钮

py handle_dialog.py click OK py handle_dialog.py click Save py handle_dialog.py click Yes

在对话框文本框中输入

py handle_dialog.py type myfile.txt py handle_dialog.py type C:\path\to\file --field 0

关闭对话框(自动查找确定/关闭/取消)

py handle_dialog.py dismiss

等待对话框出现

py handle_dialog.py wait --timeout 10 py handle_dialog.py wait Save As --timeout 5

处理保存/打开对话框、消息框、警告、确认框等。

按名称点击元素(新增!)

bash py click_element.py Save # 点击任意位置的保存 py click_element.py OK --window Notepad # 在特定窗口中 py click_element.py Submit --type Button # 仅按钮 py click_element.py File --type MenuItem # 菜单项 py click_element.py --list # 列出可点击元素 py click_element.py --list --window Chrome # 在特定窗口中列出

按名称点击按钮、链接、菜单项,无需坐标。

读取屏幕区域(OCR - 可选)

bash py read_region.py 100 100 500 300 # 从坐标区域读取文本

注意:需要安装 Tesseract OCR。建议使用 read_window.py 以获得更好效果。

工作流程模式

  1. 1. 读取窗口 - 从特定窗口提取文本(快速、准确)
  2. 读取 UI 元素 - 获取按钮、链接及其坐标
  3. 截屏(如需要)- 查看视觉布局
  4. 执行操作 - 按名称或坐标点击元素
  5. 处理对话框 - 与弹出窗口/保存对话框交互
  6. 读取窗口 - 验证更改

屏幕坐标

  • - 原点 (0, 0) 为左上角
  • 您的屏幕:2560x1440(可通过截屏确认)
  • 使用截屏分析获取坐标

示例

打开记事本并输入

bash

按下 Windows 键

py key_press.py win

输入notepad

py type_text.py notepad

按回车

py key_press.py enter

稍等片刻,然后输入

py type_text.py Hello from AI!

保存

py key_press.py ctrl+s

在 VS Code 中点击

bash

读取当前 VS Code 内容

py read_window.py Visual Studio Code

在特定位置点击(例如文件资源管理器)

py click.py 50 100

输入文件名

py type_text.py test.js

按回车

py key_press.py enter

验证新文件已打开

py read_window.py Visual Studio Code

监控记事本变化

bash

读取当前内容

py read_window.py Notepad

用户输入一些内容...

读取更新后的内容(无需截屏!)

py read_window.py Notepad

文本读取方法

方法 1:Windows UI 自动化(最佳)

  • - 使用 readwindow.py 读取任意窗口
  • 使用 readuielements.py 获取按钮/链接及坐标
  • 使用 readwebpage.py 获取带结构的浏览器内容
  • 获取实际文本数据(非图像识别)

方法 2:按名称点击(新增)

  • - 使用 click_element.py 按名称点击按钮/链接
  • 无需坐标 - 自动查找元素
  • 可跨所有窗口操作或针对特定窗口

方法 3:对话框处理(新增)

  • - 使用 handle_dialog.py 处理弹出窗口、保存对话框、警告
  • 读取对话框内容、点击按钮、输入文本
  • 使用常用按钮(确定、取消等)自动关闭

方法 4:截屏 + 视觉识别(备用方案)

  • - 拍摄全屏截图
  • AI 视觉识别文本
  • 速度较慢但适用于任何内容

方法 5:OCR(可选)

  • - 使用 read_region.py 配合 Tesseract
  • 需要额外安装
  • 适用于包含文本的图片/PDF

安全特性

  • - pyautogui.FAILSAFE = True(将鼠标移至左上角可中止)
  • 操作间有小延迟
  • 平滑鼠标移动(非瞬间跳转)

系统要求

  • - Python 3.11+
  • pyautogui(已安装 ✅)
  • pillow(已安装 ✅)

使用技巧

  • - 始终先截屏查看当前状态
  • 坐标为绝对坐标(非相对于窗口)
  • 点击后稍

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 windows-control-1776372489 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 windows-control-1776372489 技能

通过命令行安装

skillhub install windows-control-1776372489

下载

⬇ 下载 windows-control v1.0.0(免费)

文件大小: 24.68 KB | 发布时间: 2026-4-17 14:34

v1.0.0 最新 2026-4-17 14:34
**Major update: Adds full desktop automation with robust window, UI, and dialog control.**

- NEW: Control mouse, keyboard, screenshots, and interact with any Windows application via scripts.
- NEW: Comprehensive window management (focus, minimize, maximize, close, get active window).
- NEW: Advanced UI automation: click buttons/links by name, read UI elements, robust dialog handling.
- NEW: Read actual window and browser text using Windows UI Automation (not OCR).
- NEW: Extract and interact with webpage content, including buttons, links, and structure.
- Enhanced automation reliability with wait/find routines and smooth mouse movement.
- Safety features: failsafe mouse-abort, small delays, and user-friendly workflow documentation.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部