返回顶部
f

firecrawlFirecrawl网页抓取

Web scraping and content extraction using Firecrawl API. Use when users need to crawl websites, extract structured data, convert web pages to markdown, scrape multiple URLs, or build knowledge bases from web content. Supports single page extraction, site-wide crawling, batch processing, and structured data extraction with CSS selectors.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
137
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

firecrawl

Firecrawl 技能

Firecrawl 驱动的强大网页抓取工具——将网站转换为适用于大语言模型的 Markdown 格式。

概述

Firecrawl 提供以下 API:

  • - Scrape(抓取) - 单页面提取为 Markdown
  • Crawl(爬取) - 全站爬取,支持深度控制
  • Map(映射) - 从起始点发现 URL
  • Batch(批量) - 多 URL 处理
  • Extract(提取) - 基于模式的结构化数据提取

前置条件

  1. 1. Firecrawl API 密钥 - 在 https://firecrawl.dev 获取免费套餐
  2. 安装 Python 依赖:requests

配置

设置环境变量:
bash
export FIRECRAWLAPIKEY=fc-你的-api-密钥

使用方法

单页面抓取

bash

基础抓取

firecrawl scrape https://example.com

带特定选项

firecrawl scrape https://example.com --formats markdown,html --only-main-content

等待 JS 渲染

firecrawl scrape https://spa-app.com --wait-for 2000

网站爬取

bash

爬取整个网站(限制数量)

firecrawl crawl https://docs.example.com --limit 50

带深度控制

firecrawl crawl https://blog.example.com --max-depth 2 --limit 100

包含/排除模式

firecrawl crawl https://site.com --include /blog/ --exclude /admin/

自定义格式

firecrawl crawl https://docs.example.com --formats markdown,links

URL 映射

bash

发现网站所有 URL

firecrawl map https://example.com

带搜索词

firecrawl map https://docs.python.org --search tutorial

批量处理

bash

抓取多个 URL

firecrawl batch urls.txt --output ./scraped/

从 JSON 列表

firecrawl batch urls.json --formats markdown --concurrency 5

结构化提取

bash

使用 CSS 选择器提取特定数据

firecrawl extract https://example.com/products \ --schema {name: .product-title, price: .price, description: .desc}

提取为 JSON

firecrawl extract https://news.example.com/article --schema article-schema.json

输出格式

Markdown

干净、适合大语言模型的 Markdown,包含:
  • - 保留标题层级
  • 链接转换为 Markdown 格式
  • 带替代文本的图片
  • 表格格式化为 Markdown 表格

HTML

原始或清理后的 HTML

链接

提取的链接列表,用于进一步爬取

截图

页面截图(如请求)

使用场景

知识库构建

bash

爬取文档网站

firecrawl crawl https://docs.framework.com --limit 200 -o ./kb/

合并为单个文件用于 RAG

cat ./kb/*.md > knowledge-base.md

研究与分析

bash

抓取竞品定价

firecrawl batch competitors.txt --extract pricing-schema.json

监控博客更新

firecrawl map https://blog.company.com --since 2024-01-01

内容迁移

bash

导出旧 CMS 内容

firecrawl crawl https://old-site.com --formats markdown,html -o ./export/

脚本

所有功能通过 scripts/firecrawl.py 实现:

  • - 处理 API 认证
  • 自动速率限制
  • 失败重试逻辑
  • 大型爬取进度追踪

集成

与以下工具配合良好:

  • - markdown-sync-pro - 将抓取内容同步到 Notion/GitHub
  • arxiv-paper - 结合学术论文下载
  • maybe-finance - 抓取金融数据用于分析

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 web-scraper-firecrawl-1776115814 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 web-scraper-firecrawl-1776115814 技能

通过命令行安装

skillhub install web-scraper-firecrawl-1776115814

下载

⬇ 下载 firecrawl v1.0.0(免费)

文件大小: 5.73 KB | 发布时间: 2026-4-14 10:17

v1.0.0 最新 2026-4-14 10:17
Initial release

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部