返回顶部
s

scrapling-fetch-proScrapling抓取工具

专业网页抓取工具,完整支持微信公众号文章爬取、自动模式检测、噪音清理。适合抓取博客、新闻、公告及各类有反爬保护的网站。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.2.0
安全检测
已通过
109
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

scrapling-fetch-pro

Scrapling Fetch Pro

专业版网页抓取工具,完整支持微信公众号文章爬取,智能模式检测,噪音清理。

主要功能

🌐 网页内容抓取

  • - 智能正文提取:自动识别并提取网页正文内容,无需手动指定选择器
  • Markdown 输出:将 HTML 自动转换为干净的 Markdown 格式
  • 字符数控制:支持自定义最大输出字符数(默认 30000)

🔓 反爬绕过

  • - Cloudflare Turnstile:自动绕过 Cloudflare 反爬验证
  • 浏览器指纹伪装:隐身模式下模拟真实浏览器,避免被检测

📱 微信公众号支持 ⭐

  • - 完整爬取:支持微信公众号文章完整内容抓取
  • 噪音清理:自动移除底部广告、工具栏等无用内容
  • 标题提取:支持微信公众号专用标题选择器

🎯 模式选择

  • - basic 模式:快速 HTTP 抓取,适合静态页面
  • stealth 模式:隐身浏览器抓取,适合有反爬保护的网站
  • auto 模式:智能自动检测,根据 URL 自动选择最佳模式 ⭐

快速开始

bash

自动模式(推荐)


python3 scripts/scrapling_fetch.py https://example.com/article --mode auto

微信公众号文章(自动识别)

python3 scripts/scrapling_fetch.py https://mp.weixin.qq.com/s/xxx

指定字符数

python3 scripts/scrapling_fetch.py https://example.com/article 50000

强制 stealth 模式

python3 scripts/scrapling_fetch.py https://protected-site.com --mode stealth

JSON 输出

python3 scripts/scrapling_fetch.py https://example.com --json

正文选择器(16个)

按优先级自动尝试:

  1. 1. #jscontent - 微信公众号正文 ⭐
  2. .richmedia_content - 微信公众号备选 ⭐
  3. article - HTML5 article 元素
  4. main - HTML5 main 主元素
  5. .post-content - 博客常见内容区域
  6. .article-content - 新闻常见内容区域
  7. .entry-content - WordPress 常见
  8. .post-body - 文章正文
  9. .content-body - 内容正文 ⭐
  10. [class=body] - 包含 body 的类名
  11. [class=content] - 包含 content 的类名
  12. [class*=article] - 包含 article 的类名 ⭐
  13. #content - content ID
  14. #main - main ID
  15. .content - content 类 ⭐
  16. body - 最后回退

微信公众号噪音清理 ⭐

自动移除以下内容:

  • - 底部广告区域
  • 工具栏(分享、点赞等)
  • 预览相关内容
  • 推荐阅读
  • 二维码关注提示

依赖

包名版本用途
scrapling0.4.2爬虫核心框架
html2text
2025.4.15 | HTML 转 Markdown | | playwright | 1.58.0 | 浏览器自动化 | | patchright | 1.58.2 | Playwright 补丁 | | beautifulsoup4 | 4.12.3 | HTML 解析/噪音清理 ⭐ | | lxml | 6.0.2 | XML/HTML 解析器 |

使用场景

  • - ✅ 抓取博客文章
  • ✅ 抓取新闻页面
  • ✅ 抓取公告文档
  • 微信公众号文章(完整支持)
  • ✅ 绕过各类反爬保护
  • ✅ 自动检测最佳抓取模式

对比基础版

特性基础版专业版
抓取模式basic / stealthbasic / stealth / auto
选择器数量
11 个 | 16 个 | | 微信公众号 | ⚠️ 有限支持 | ✅ 完整支持 | | 噪音清理 | ❌ | ✅ 微信专用清理 | | 自动检测 | ❌ | ✅ 智能模式选择 |

示例输出

文章标题

正文内容...

[已自动移除底部广告和工具栏]



版本: 1.2.0
作者: OpenClaw
许可证: MIT (需保留版权声明)

许可证

MIT License

版权所有 (c) 2026 OpenClaw

特此授予任何人免费获得本软件及相关文档文件(以下简称软件)副本的权利,允许无限制地处理本软件,包括但不限于使用、复制、修改、合并、发布、分发、再许可和/或销售软件副本的权利,并允许获得软件的人员在满足以下条件的情况下这样做:

上述版权声明和本许可声明应包含在本软件的所有副本或实质性部分中。

本软件按原样提供,不提供任何明示或暗示的担保,包括但不限于适销性、特定用途适用性和非侵权性的担保。在任何情况下,作者或版权持有人均不对因本软件或本软件的使用或其他交易而引起的任何索赔、损害或其他责任负责,无论是合同行为、侵权行为还是其他行为。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 scrapling-fetch-pro-1775957547 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 scrapling-fetch-pro-1775957547 技能

通过命令行安装

skillhub install scrapling-fetch-pro-1775957547

下载

⬇ 下载 scrapling-fetch-pro v1.2.0(免费)

文件大小: 7.59 KB | 发布时间: 2026-4-13 11:53

v1.2.0 最新 2026-4-13 11:53
更改许可证从 MIT-0 到 MIT(需要署名)

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部