返回顶部
s

scrapling-safe安全爬虫

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
198
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

scrapling-safe

Scrapling 技能

使用 Scrapling 框架进行安全的网页数据抓取和内容提取。

安全说明

仅用于合法用途,严格遵守以下限制:

  • - ✅ 仅抓取公开网站:遵守 robots.txt 和网站服务条款
  • 路径输出受限:结果文件只能保存到用户主目录
  • 无危险函数:不使用 eval/exec 等危险函数
  • 严格的超时控制:防止无限等待
  • 频率限制:自动添加请求延迟,避免对目标造成压力
  • 禁止抓取私有内容:仅抓取公开可访问页面
  • 禁止大规模爬取:默认并发限制为 1

核心功能

  • - 🕷️ 多种抓取模式:HTTP/隐身/浏览器自动化
  • 🎯 智能元素定位:自适应选择器,网站改版后仍有效
  • 📄 数据提取:CSS/XPath/文本/正则搜索
  • 💾 结果保存:保存到 JSON/TXT/MD 文件(路径受限)
  • 🔍 内容解析:类似 Scrapy 的 API,易于使用

使用场景

  • - 抓取公开新闻和资讯
  • 提取商品信息(电商网站)
  • 收集公开数据(天气、股票等)
  • 网站内容监控

触发词

  • - scrapling 抓取...
  • scrapling 提取...
  • scrapling 爬取...
  • scrapling 获取...

快速开始

基本抓取

bash

HTTP 请求抓取


scrapling get https://example.com --output ~/result.json

隐身模式抓取

scrapling stealthy https://example.com --output ~/result.json

浏览器自动化(动态内容)

scrapling dynamic https://example.com --output ~/result.json

指定选择器

bash

使用 CSS 选择器


scrapling get https://quotes.toscrape.com --css-selector .quote --output ~/quotes.json

提取特定字段

scrapling get https://quotes.toscrape.com --css-selector .quote .text --output ~/text.txt

高级用法

bash

隐身模式 + 解决 Cloudflare


scrapling stealthy https://nopecha.com/demo/cloudflare --solve-cloudflare --output ~/result.json

并发抓取(限制为 1)

scrapling spider https://example.com --concurrent 1 --output ~/crawl.json

安装要求

  • - Python 3.10+
  • 需要安装 Scrapling: pip install scrapling[fetchers]
  • 需要浏览器依赖:scrapling install

注意事项

  • - 需要本地安装 Scrapling 和相关依赖
  • 默认请求延迟 1 秒,避免对目标造成压力
  • 仅抓取公开可访问的页面
  • 遵守 robots.txt 和网站服务条款
  • 输出文件路径必须在用户主目录

版本历史

  • - 1.0.0 - 初始版本

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 scrapling-safe-1776103156 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 scrapling-safe-1776103156 技能

通过命令行安装

skillhub install scrapling-safe-1776103156

下载

⬇ 下载 scrapling-safe v1.0.0(免费)

文件大小: 5.58 KB | 发布时间: 2026-4-17 16:00

v1.0.0 最新 2026-4-17 16:00
scrapling-safe 1.0.0

- 初始发布。
- 支持多种网页抓取方式:HTTP、隐身模式、浏览器自动化。
- 提供智能元素定位与内容提取,支持 CSS/XPath/文本/正则方式。
- 增强安全性:仅抓取公开数据、路径输出受限、严格请求频率与超时控制、禁止危险函数。
- 易用命令行接口,兼容多类数据抓取场景。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部