返回顶部
w

webscraper网页内容提取

Extract readable content from web pages. Use when: user wants to read article content, fetch documentation, grab product info, or get text from URLs. NOT for: interactive sites, login-required pages, or complex JavaScript-rendered content.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
173
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

webscraper

WebScraper 技能

从网页中提取并解析内容,转换为可读的 Markdown 或纯文本格式。

使用时机

使用此技能的场景:

  • - 阅读这篇文章:[URL]
  • 这个页面说了什么?
  • 获取 [URL] 的内容
  • 获取文档、博客文章、新闻文章
  • 从电商网站提取产品信息
  • 抓取 API 文档或教程
  • 总结网页内容

不应使用的场景

不要使用此技能的场景:

  • - 需要登录的页面(请使用带会话的 BrowserAgent)
  • 重度 JavaScript 渲染的内容(请使用 BrowserAgent)
  • 交互式 Web 应用(仪表盘、单页应用)
  • 受 CAPTCHA 保护的网站
  • 具有严格反爬虫措施的网站
  • 实时数据(股票行情、实时比分)

命令

获取 URL 内容

bash

使用 OpenClaw web_fetch 工具(推荐)


通过工具调用,而非直接命令行

基本获取(Markdown 输出)

web_fetch(url: https://example.com/article)

纯文本模式(无 Markdown)

web_fetch(url: https://example.com/article, extractMode: text)

限制内容长度

web_fetch(url: https://example.com/article, maxChars: 5000)

使用 curl(备用方案)

bash

简单 HTML 获取


curl -s https://example.com | html2text -width 80

带 User-Agent(避免被识别为爬虫)

curl -s -A Mozilla/5.0 (Macintosh; Intel Mac OS X 10157) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 https://example.com

获取并提取主要内容(需要 readability-cli)

curl -s https://example.com | readability

仅获取标题

curl -s https://example.com | grep -oP (?<=).*?(?=)

使用 Node.js(高级)

bash

安装 cheerio 用于 HTML 解析


npm install -g cheerio

使用 Node 解析 HTML

node -e const cheerio = require(cheerio); const html = \\$(curl -s https://example.com)\; const \$ = cheerio.load(html); console.log(\$(article).text());

响应格式

获取内容时,按以下结构组织响应:

markdown

📄 [页面标题]

来源: URL
获取时间: 2026-03-20

内容

[提取的内容在此...]



摘要:[1-2 句摘要(如有帮助)]

最佳实践

1. 遵守速率限制

bash

在请求之间添加延迟


sleep 2 && curl https://example.com/page1
sleep 2 && curl https://example.com/page2

2. 使用合适的 User-Agent

bash

桌面版 Chrome


curl -A Mozilla/5.0 (Macintosh; Intel Mac OS X 10157) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36

移动版 Safari

curl -A Mozilla/5.0 (iPhone; CPU iPhone OS 17_0 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Mobile/15E148 Safari/604.1

3. 处理错误

bash

检查 HTTP 状态码


curl -s -o /dev/null -w %{http_code} https://example.com

10 秒超时

curl -s --max-time 10 https://example.com

失败时重试

curl -s --retry 3 https://example.com

4. 提取特定内容

bash

获取所有链接


curl -s https://example.com | grep -oP href=\K[^]+ | head -20

获取图片

curl -s https://example.com | grep -oP src=\K[^]+\.(jpg|png|webp)

获取元描述

curl -s https://example.com | grep -oP (?<=与 OpenClaw 集成

使用 web_fetch 工具

javascript
// 在您的代理代码中
const content = await web_fetch({
url: https://example.com/article,
extractMode: markdown, // 或 text
maxChars: 10000
});

批量处理

对于多个 URL,按顺序处理并添加延迟:

URL1 → 获取 → 等待 2 秒 → URL2 → 获取 → 等待 2 秒 → URL3 → 获取

常见用例

1. 文章摘要

  1. 1. 获取文章内容
  2. 提取正文(移除导航、页脚、广告)
  3. 生成摘要
  4. 返回并注明来源

2. 产品信息

  1. 1. 获取产品页面
  2. 提取:名称、价格、描述、规格
  3. 格式化为结构化数据
  4. 返回便于对比的格式

3. 文档查询

  1. 1. 获取文档页面
  2. 提取相关章节
  3. 搜索特定主题
  4. 返回代码示例及说明

故障排除

问题解决方案
内容为空/缺失网站使用 JS 渲染 → 使用 BrowserAgent
被网站屏蔽
添加 User-Agent、添加延迟、使用代理 | | 超时 | 增加超时时间、检查 URL 有效性 | | 乱码文本 | 检查字符集、尝试文本模式 | | 需要登录 | 使用带会话 Cookie 的 BrowserAgent |

相关技能

  • - BrowserAgent - 用于交互式/重度 JS 网站
  • web_search - 用于在获取前查找 URL
  • coding-agent - 用于处理提取的数据

安全注意事项

⚠️ 重要提示:

  • - 遵守 robots.txt
  • 不要抓取个人数据
  • 尊重版权/服务条款
  • 在请求之间添加延迟(2-5 秒)
  • 不要使服务器过载
  • 尽可能使用官方 API

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 webscraper-1776064876 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 webscraper-1776064876 技能

通过命令行安装

skillhub install webscraper-1776064876

下载

⬇ 下载 webscraper v1.0.0(免费)

文件大小: 3.37 KB | 发布时间: 2026-4-17 16:33

v1.0.0 最新 2026-4-17 16:33
Initial release: web content extraction

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部