mybrowser-skill
Platform Support
- - Linux x86_64: Supported
- macOS: Not supported
- Windows: Not supported
- Other Linux architectures (ARM, etc.) are not supported.
Installation
CODEBLOCK0
Note:
Each command will return a snapshot of the current page after execution, including the index of elements.
Please call the standalone mybrowser-skill browser_snapshot command only when necessary to avoid unnecessary token consumption.
Core Workflow
Every browser automation follows this pattern:
- 1. Navigate: INLINECODE0
- Snapshot:
mybrowser-skill browser_snapshot (get indexed element refs) - Interact: Use element index to click, fill, select
- Re-snapshot: After navigation or DOM changes, get fresh refs
CODEBLOCK1
Essential Commands
CODEBLOCK2
Common Patterns
Form Submission
CODEBLOCK3
Data Extraction
CODEBLOCK4
Infinite Scroll Pages
CODEBLOCK5
Element Index Lifecycle (Important)
Element indices are invalidated when the page changes. Always re-snapshot after:
- - Clicking links or buttons that navigate
- Form submissions
- Dynamic content loading (dropdowns, modals, AJAX)
CODEBLOCK6
mybrowser-skill
平台支持
- - Linux x86_64: 支持
- macOS: 不支持
- Windows: 不支持
- 其他Linux架构(ARM等)不支持。
安装
bash
pipx install mybrowser-skill
mybrowser-skill install # 下载Chromium
注意:
每条命令执行后会返回当前页面的快照,包含元素索引。
请仅在必要时调用独立的 mybrowser-skill browser_snapshot 命令,以避免不必要的token消耗。
核心工作流程
每个浏览器自动化操作都遵循以下模式:
- 1. 导航: mybrowser-skill browsergotourl --url
- 快照: mybrowser-skill browsersnapshot(获取带索引的元素引用)
- 交互: 使用元素索引进行点击、填写、选择
- 重新快照: 导航或DOM变化后,获取新的引用
bash
mybrowser-skill browsergoto_url --url https://example.com/form
mybrowser-skill browser_snapshot
输出包含元素索引:[1] input email, [2] input password, [3] button Submit
mybrowser-skill browserinputtext --index 1 --text user@example.com
mybrowser-skill browserinputtext --index 2 --text password123
mybrowser-skill browserclickelement --index 3
mybrowser-skill browser_wait --seconds 2
mybrowser-skill browser_snapshot # 检查结果
基本命令
bash
导航
mybrowser-skill browser
goto_url --url
# 导航到URL
mybrowser-skill browsergoback # 返回上一页
mybrowser-skill browser_wait --seconds 3 # 等待页面加载(默认3秒)
快照与截图
mybrowser-skill browser_snapshot # 获取带元素索引的页面内容
mybrowser-skill browser_screenshot # 截图(返回.webp图片的临时文件路径)
mybrowser-skill browser_screenshot --full # 全页面截图(返回临时文件路径)
mybrowser-skill browser_screenshot --annotate # 带元素标签的注释截图(返回临时文件路径)
mybrowser-skill browser_markdownify # 将页面转换为markdown
点击与输入(使用快照中的索引)
mybrowser-skill browserclickelement --index 1 # 点击元素
mybrowser-skill browserdblclickelement --index 1 # 双击元素
mybrowser-skill browserfocuselement --index 1 # 聚焦元素
mybrowser-skill browserinputtext --index 1 --text hello # 向元素输入文本
滚动
mybrowser-skill browserscrolldown # 向下滚动一页
mybrowser-skill browserscrolldown --amount 300 # 向下滚动300像素
mybrowser-skill browserscrollup # 向上滚动一页
mybrowser-skill browserscrollup --amount 300 # 向上滚动300像素
mybrowser-skill browserscrollto_text --text Section 3 # 滚动到文本位置
mybrowser-skill browserscrollto_top # 滚动到顶部
mybrowser-skill browserscrollto_bottom # 滚动到底部
mybrowser-skill browserscrollby --direction down --pixels 500 # 按方向滚动页面
mybrowser-skill browserscrollby --direction right --pixels 200 --index 3 # 按方向滚动元素
mybrowser-skill browserscrollinto_view --index 5 # 将元素滚动到可视区域
键盘
mybrowser-skill browser_keypress --key Enter # 按下按键
mybrowser-skill browserkeyboardop --action type --text hello # 输入文本
mybrowser-skill browserkeyboardop --action inserttext --text hello # 插入文本(无按键事件)
mybrowser-skill browser_keydown --key Shift # 按住按键
mybrowser-skill browser_keyup --key Shift # 释放按键
下拉菜单
mybrowser-skill browsergetdropdown_options --index 2 # 获取下拉选项
mybrowser-skill browserselectdropdown_option --index 2 --text Option A # 选择选项
复选框
mybrowser-skill browsercheckop --index 4 --value # 勾选复选框
mybrowser-skill browsercheckop --index 4 # 取消勾选复选框(省略--value)
获取信息
mybrowser-skill browsergetinfo --type text --index 1 # 获取元素文本
mybrowser-skill browsergetinfo --type url # 获取当前URL
mybrowser-skill browsergetinfo --type title # 获取页面标题
mybrowser-skill browsergetinfo --type html --index 1 # 获取元素HTML
mybrowser-skill browsergetinfo --type value --index 1 # 获取元素值
mybrowser-skill browsergetinfo --type attr --index 1 --attribute href # 获取属性
mybrowser-skill browsergetinfo --type count # 获取元素数量
mybrowser-skill browsergetinfo --type box --index 1 # 获取边界框
mybrowser-skill browsergetinfo --type styles --index 1 # 获取计算样式
mybrowser-skill browsercheckstate --state visible --index 1 # 检查可见性
mybrowser-skill browsercheckstate --state enabled --index 1 # 检查是否启用
mybrowser-skill browsercheckstate --state checked --index 1 # 检查是否选中
查找并操作(语义定位器)
mybrowser-skill browserfindand_act --by role --value button --action click --name Submit
mybrowser-skill browserfindand_act --by text --value Sign In --action click
mybrowser-skill browserfindand_act --by label --value Email --action fill --actionValue user@test.com
mybrowser-skill browserfindand_act --by placeholder --value Search --action type --actionValue query
mybrowser-skill browserfindand_act --by testid --value submit-btn --action click
下载
mybrowser-skill browserdownloadfile --index 5 # 通过点击元素下载文件
mybrowser-skill browserdownloadurl # 从URL下载
标签页管理
mybrowser-skill browsertabopen --url # 在新标签页中打开URL
mybrowser-skill browsertablist # 列出打开的标签页
mybrowser-skill browsertabswitch --tabId 2 # 切换到标签页
mybrowser-skill browsertabclose --tabId 2 # 关闭标签页
对话框
mybrowser-skill browser_dialog --action accept # 接受对话框
mybrowser-skill browser_dialog --action dismiss # 取消对话框
mybrowser-skill browser_dialog --action accept --text input text # 接受提示框并输入文本
任务完成
mybrowser-skill browser_done --success --text Task completed # 标记任务完成
mybrowser-skill browser_done --text Still in progress # 标记任务未完成
帮助
mybrowser-skill list # 列出所有可用技能
mybrowser-skill --help # 显示特定技能的帮助
技能状态
mybrowser-skill status # 检查状态
常见模式
表单提交
bash
mybrowser-skill browsergoto_url --url https://example.com/signup
mybrowser-skill browser_snapshot
mybrowser-skill browserinputtext --index 1 --text Jane Doe
mybrowser-skill browserinputtext --index 2 --text jane@example.com
mybrowser-skill browserselectdropdown_option --index 3 --text California
mybrowser-skill browsercheckop --index 4 --value
mybrowser-skill browserclickelement --index 5
mybrowser-skill browser_wait --seconds 2
mybrowser-skill browser_snapshot # 验证结果
数据提取
bash
mybrowser-skill browsergoto_url --url https://example.com/products
mybrowser-skill browser_snapshot
mybrowser-skill browsergetinfo --type text --index 5 # 获取特定元素文本
mybrowser-skill browser_markdown