返回顶部
w

web-scraping网页抓取

Extract structured information from websites using web_fetch for simple pages and browser automation for dynamic sites, login-gated flows, pagination, infinite scroll, or pages that require clicking/searching/filtering. Use when the user asks to scrape a site, collect listings, gather fields from many pages, monitor website changes, or turn webpage content into structured summaries/JSON/CSV.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
6,375
下载量
免费
免费
3
收藏
概述
安装方式
版本历史

web-scraping

Web Scraping

优先使用最轻量可靠的方法提取数据。

选择方法

  1. 1. 对于所需内容已存在于HTML中的简单公开页面,使用webfetch。
  2. 当网站是动态的,需要点击、无限滚动、筛选、标签页或登录/会话状态时,使用browser。
  3. 仅在目标URL未知时,使用websearch发现候选页面。

默认工作流程

  1. 1. 确定目标网站和需要收集的具体字段。
  2. 先测试一个页面。
  3. 决定提取方法:
- 对于可读的文章/列表文本,使用web_fetch - 对于动态DOM检查,使用browser snapshot
  1. 4. 将输出规范化为稳定的模式。
  2. 如果抓取多个页面,避免紧密循环并序列化请求。
  3. 按URL或稳定的项目ID去重。
  4. 当任务规模大于一次性快速操作时,将结果保存到工作区。

浏览器抓取模式

  1. 1. 打开页面。
  2. 拍摄快照。
  3. 仅按需进行交互:搜索、点击筛选、分页、展开部分。
  4. 每次有意义的状态变化后重新拍摄快照。
  5. 仅提取用户要求的字段。
  6. 完成后关闭标签页。

输出指南

优先使用以下格式之一:

  • - 简洁的要点总结
  • JSON对象数组
  • 当用户需要可导出行时使用CSV/TSV

使用明确的键,例如:

json
[
{
title: ...,
url: ...,
source: ...,
date: ...,
summary: ...
}
]

可靠性规则

  • - 不要虚构缺失的字段。
  • 如果网站阻止访问,如实说明并在适当时切换来源。
  • 对于新闻/结果页面,至少捕获来源+标题+链接。
  • 对于大型任务,将部分结果检查点保存到工作区文件。
  • 优先进行较少次数的大批量写入,而不是多次小批量写入。

清理

  • - 关闭为抓取而打开的浏览器标签页。
  • 如果创建了状态/输出文件,将其存储在工作区下并清晰命名。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 web-scraping-1776209881 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 web-scraping-1776209881 技能

通过命令行安装

skillhub install web-scraping-1776209881

下载

⬇ 下载 web-scraping v1.0.0(免费)

文件大小: 1.75 KB | 发布时间: 2026-4-17 16:32

v1.0.0 最新 2026-4-17 16:32
- Initial release of the web-scraping skill.
- Supports data extraction from both static and dynamic websites.
- Automatically chooses between direct HTML fetching and browser automation based on site complexity and interaction needs.
- Handles dynamic content, authentication, infinite scroll, pagination, and search/filter flows.
- Outputs structured data in concise bullet lists, JSON, or CSV formats.
- Includes reliability rules for deduplication, error handling, and workspace file management.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部