返回顶部
s

smart-crawler智能爬虫

智能爬虫工具 - 企业级数据采集与反爬虫处理 | Smart Web Crawler - Enterprise data collection with anti-detection

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
775
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

smart-crawler

Smart Crawler - 智能爬虫工具

企业级数据采集解决方案,支持智能反爬虫处理、分布式爬取和数据清洗。

核心功能

功能模块说明
智能爬虫引擎基于 Playwright/Selenium 的动态渲染爬取
反爬虫处理
自动切换 User-Agent、代理池、请求频率控制 | | 数据提取 | XPath/CSS Selector/Regex 多模式数据提取 | | 分布式支持 | Redis 队列支持的分布式爬取 | | 数据清洗 | 自动去重、格式标准化、敏感信息过滤 |

快速开始

python
from scripts.crawler_engine import CrawlerEngine

创建爬虫引擎

crawler = CrawlerEngine(use_proxy=True, headless=True)

爬取网页

result = crawler.crawl(https://example.com, extract_rules={title: //h1/text(), content: //div[@class=content]//p/text()}) print(result)

安装

bash
pip install -r requirements.txt
playwright install

项目结构

smart-crawler/
├── SKILL.md # Skill说明文档
├── README.md # 完整文档
├── requirements.txt # 依赖列表
├── scripts/ # 核心模块
│ ├── crawler_engine.py # 爬虫引擎
│ ├── proxy_manager.py # 代理管理器
│ ├── data_extractor.py # 数据提取器
│ └── anti_detection.py # 反检测模块
├── examples/ # 使用示例
│ └── basic_usage.py
└── tests/ # 单元测试
└── test_crawler.py

运行测试

bash
cd tests
python test_crawler.py

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 smart-crawler-1776189856 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 smart-crawler-1776189856 技能

通过命令行安装

skillhub install smart-crawler-1776189856

下载

⬇ 下载 smart-crawler v1.0.0(免费)

文件大小: 12.21 KB | 发布时间: 2026-4-17 16:11

v1.0.0 最新 2026-4-17 16:11
Initial release: Enterprise web crawler with anti-detection

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部