返回顶部
t

tabstack-extractorTabstack数据提取

Extract structured data from websites using Tabstack API. Use when you need to scrape job listings, news articles, product pages, or any structured web content. Provides JSON schema-based extraction and clean markdown conversion. Requires TABSTACK_API_KEY environment variable.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
1,856
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

tabstack-extractor

Tabstack Extractor

概述

本技能支持使用Tabstack API从网站中提取结构化数据。它非常适合需要从招聘网站、新闻网站、产品页面或任何结构化内容中获取一致、基于模式的数据的网页抓取任务。

快速开始

1. 安装Babashka(如需)

bash

选项A:从GitHub安装(推荐用于共享)

curl -s https://raw.githubusercontent.com/babashka/babashka/master/install | bash

选项B:从Nix安装

nix-shell -p babashka

选项C:从Homebrew安装

brew install borkdude/brew/babashka

2. 设置API密钥

选项A:环境变量(推荐)
bash
export TABSTACKAPIKEY=yourapikey_here

选项B:配置文件
bash
mkdir -p ~/.config/tabstack
echo {:api-key yourapikey_here} > ~/.config/tabstack/config.edn

获取API密钥:Tabstack控制台注册

3. 测试连接

bash bb scripts/tabstack.clj test

4. 提取Markdown(简单)

bash bb scripts/tabstack.clj markdown https://example.com

5. 提取JSON(从简单开始)

bash

从简单模式开始(快速、可靠)

bb scripts/tabstack.clj json https://example.com references/simple_article.json

尝试更复杂的模式(可能较慢)

bb scripts/tabstack.clj json https://news.site references/news_schema.json

6. 高级功能

bash

带重试逻辑的提取(3次重试,1秒延迟)

bb scripts/tabstack.clj json-retry https://example.com references/simple_article.json

带缓存的提取(24小时缓存)

bb scripts/tabstack.clj json-cache https://example.com references/simple_article.json

从URL文件批量提取

echo https://example.com > urls.txt echo https://example.org >> urls.txt bb scripts/tabstack.clj batch urls.txt references/simple_article.json

核心功能

1. Markdown提取

从任何网页提取清晰、可读的Markdown内容。适用于内容分析、摘要或归档。

使用场景: 当您需要页面的文本内容而不需要HTML杂乱信息时。

示例用例:

  • - 提取文章内容用于摘要
  • 归档网页内容
  • 分析博客文章内容

2. JSON模式提取

使用JSON模式提取结构化数据。精确定义您需要的数据,并以一致的格式获取。

使用场景: 抓取职位列表、产品页面、新闻文章或任何结构化数据时。

示例用例:

  • - 从BuiltIn/LinkedIn抓取职位列表
  • 从电商网站提取产品详情
  • 收集具有一致元数据的新闻文章

3. 模式模板

针对常见抓取任务的预构建模式。参见references/目录获取模板。

可用模式:

  • - 职位列表模式(参见references/job_schema.json)
  • 新闻文章模式
  • 产品页面模式
  • 联系信息模式

工作流程:职位抓取示例

按照以下工作流程抓取职位列表:

  1. 1. 确定目标网站 - BuiltIn、LinkedIn、公司招聘页面
  2. 选择或创建模式 - 使用references/job_schema.json或自定义
  3. 测试提取 - 运行单个页面验证模式是否有效
  4. 扩展规模 - 处理多个URL
  5. 存储结果 - 保存到数据库或文件

示例职位模式:
json
{
type: object,
properties: {
title: {type: string},
company: {type: string},
location: {type: string},
description: {type: string},
salary: {type: string},
apply_url: {type: string},
posted_date: {type: string},
requirements: {type: array, items: {type: string}}
}
}

与其他技能的集成

与网页搜索结合

  1. 1. 使用web_search查找相关URL
  2. 使用Tabstack从这些URL提取结构化数据
  3. 将结果存储在Datalevin中(未来技能)

与浏览器自动化结合

  1. 1. 使用browser工具导航复杂网站
  2. 提取页面URL
  3. 使用Tabstack进行结构化提取

错误处理

常见问题及解决方案:

  1. 1. 认证失败 - 检查TABSTACKAPIKEY环境变量
  2. 无效URL - 确保URL可访问且正确
  3. 模式不匹配 - 调整模式以匹配页面结构
  4. 速率限制 - 在请求之间添加延迟

资源

scripts/

  • - tabstack.clj - Babashka主API封装(推荐,具有重试逻辑、缓存、批量处理)
  • tabstackcurl.sh - Bash/curl备用方案(简单,无依赖)
  • tabstackapi.py - Python API封装(需要requests模块)

references/

  • - jobschema.json - 职位列表模板模式
  • apireference.md - Tabstack API文档

最佳实践

  1. 1. 从小开始 - 在扩展前先用单个页面测试
  2. 遵守robots.txt - 检查网站抓取策略
  3. 添加延迟 - 避免压垮目标网站
  4. 验证模式 - 在样本页面上测试模式
  5. 优雅处理错误 - 为失败的请求实现重试逻辑

教学重点:如何创建模式

本技能旨在教授代理如何有效使用Tabstack API。关键在于学习为不同网站创建合适的JSON模式。

学习路径

  1. 1. 从简单开始 - 使用references/simple_article.json(4个基本字段)
  2. 广泛测试 - 在多种页面类型上尝试模式
  3. 迭代优化 - 根据页面实际内容添加字段
  4. 优化精简 - 为提高速度移除不必要的字段

详细说明和示例请参见模式创建指南

应避免的常见错误

  • - 模式过于复杂 - 从2-3个字段开始,而不是20个
  • 缺少字段 - 不要要求页面上不存在的字段
  • 不进行测试 - 始终先用example.com测试,再测试目标网站
  • 忽略超时 - 复杂模式需要更长时间(45秒超时)

Babashka优势

使用Babashka实现本技能的优势:

  1. 1. 单一二进制文件 - 易于共享/安装(GitHub发布、brew、nix)
  2. 快速启动 - 无需JVM预热,约50ms启动时间
  3. 内置HTTP客户端 - 无外部依赖
  4. Clojure语法 - 对您(Wes)来说熟悉且富有表现力
  5. 重试逻辑和缓存 - 内置于技能中
  6. 批量处理 - 多个URL的并行提取

示例用户请求

触发本技能的场景:

  • - 从Docker招聘页面抓取职位列表
  • 提取这篇文章的主要内容
  • 从这个电商页面获取结构化产品数据
  • 从这个网站拉取所有新闻文章
  • 从这个公司页面提取联系信息
  • 批量从这20个URL提取职位列表
  • 获取此页面的缓存结果(避免API调用)

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 tabstack-extractor-1776377861 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 tabstack-extractor-1776377861 技能

通过命令行安装

skillhub install tabstack-extractor-1776377861

下载

⬇ 下载 tabstack-extractor v0.1.0(免费)

文件大小: 9.63 KB | 发布时间: 2026-4-17 14:29

v0.1.0 最新 2026-4-17 14:29
Initial release of tabstack-extractor: structured web data extraction via Tabstack API.

- Extracts clean markdown or schema-based JSON from web pages (jobs, news, products, etc)
- Provides CLI (Babashka, bash/curl, Python) for extraction with retry logic, caching, and batching
- Includes example JSON schemas and templates for common web scraping needs
- Guides users through API key setup and schema creation
- Emphasizes quick start, best practices, and troubleshooting for reliable use

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部