返回顶部
w

webpage-export网页导出

Export webpages into clean local TXT, DOCX, and PDF files with source metadata, fallback extraction logic, and browser-assisted recovery for difficult pages. Useful for archiving articles, policy pages, WeChat posts, official notices, and other webpages before downstream analysis or sharing.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
165
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

webpage-export

网页导出

使用此技能可将网页URL转换为本地文件,供下游代理归档、发送或引用。

核心工作流程

  1. 1. 首先运行 scripts/export_webpage.py 创建TXT快照。
  2. 将TXT作为基线提取记录。
  3. 当用户需要Word文档时添加 --docx 参数。
  4. 当Chrome/Chromium可用且用户需要PDF时添加 --pdf 参数。
  5. 保留生成的JSON元数据文件;该文件记录提取质量、路径、警告和部分失败状态,供下游代理使用。
  6. 当用户提供 --outdir 时,将输出保存到指定目录;否则让脚本使用当前工作目录下的本地默认导出文件夹。
  7. 对于精度敏感的工作,保留原始标题、原始URL和提取的源元数据。

命令

仅TXT

bash
python3 scripts/export_webpage.py

TXT + DOCX

bash
python3 scripts/export_webpage.py --docx

TXT + PDF

bash
python3 scripts/export_webpage.py --pdf

TXT + DOCX + PDF 并指定输出文件夹

bash
python3 scripts/export_webpage.py --docx --pdf --outdir ./exports/temp

运行时要求

  • - 需要 python3。
  • 需要 curl 用于基线网页获取。
  • PDF导出需要Chrome或Chromium。
  • 浏览器辅助回退需要 node 和 playwright 包。
  • macOS上的DOCX导出需要 textutil。

安全与执行说明

  • - 此技能会获取任意URL,并可能对复杂页面使用无头浏览器。
  • 浏览器辅助回退会执行页面JavaScript,仅在必要时使用。
  • 在生产或共享环境中,优先使用显式的 --outdir 值。

脚本功能

  • - 使用 curl 获取页面
  • 提取标题/来源/发布时间(如可用)
  • 在回退到全页文本快照前尝试多个正文候选
  • 对提取质量进行评分,并对可疑/部分结果发出警告
  • 将HTML转换为可读文本以生成TXT快照
  • 在macOS上使用 textutil 将TXT转换为DOCX
  • 当Chrome/Chromium可用时,使用无头打印将网页渲染为PDF
  • 生成包含状态、路径、字数、质量和警告的JSON元数据文件

格式选择

  • - 优先选择 TXT 作为基线提取记录。
  • 当用户需要可编辑或可共享的文档时,优先选择 DOCX
  • 当用户需要类似页面的渲染或更易直接查看时,优先选择 PDF
  • 对于重要工作,不要将PDF视为唯一的事实来源。

Chrome/Chromium PDF路径

当用户需要PDF时,优先使用Chrome/Chromium无头打印,因为它比临时生成的PDF更好地保留中文文本和网页布局。

在以下情况下阅读 references/chrome-pdf-guide.md:

  • - 需要确切的Chrome PDF逻辑
  • PDF输出不完整或可疑
  • Chrome发出警告,需要判断结果是否仍可用
  • 需要回退决策

精度与回退

在以下情况下阅读 references/accuracy-and-fallbacks.md:

  • - 源精度很重要
  • 网页元数据不完整
  • 无法干净地提取某个字段
  • 部分提取后需要回退行为

交付决策

在以下情况下阅读 references/delivery-rules.md:

  • - 决定是否交付TXT、DOCX、PDF或其组合
  • 为下游代理或用户交付准备文件
  • 选择本地工作区下的归档位置

限制

  • - 某些高度动态或反爬虫页面可能只能部分提取。
  • PDF依赖于已安装的Chrome/Chromium。
  • DOCX依赖于macOS的 textutil。
  • 如果页面在轻量级获取模式下被阻止,在放弃前使用此技能的基于curl的提取路径。

精度规则

精度是最高标准。保留原始标题、原始URL和提取的源元数据。如果任何字段不确定,标记为缺失而非猜测。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 webpage-export-1776062521 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 webpage-export-1776062521 技能

通过命令行安装

skillhub install webpage-export-1776062521

下载

⬇ 下载 webpage-export v1.0.1(免费)

文件大小: 10.87 KB | 发布时间: 2026-4-17 16:33

v1.0.1 最新 2026-4-17 16:33
- Updates default output folder behavior: if no --outdir is specified, outputs now default to a local export folder under the current working directory.
- Adds runtime requirements section clarifying dependencies such as python3, curl, Chrome/Chromium, node, and playwright for various export functions.
- Adds safety and execution notes, particularly regarding headless browser usage and best practices for production environments.
- Example commands and documentation reflect new output and requirements, replacing hardcoded paths with generic, workspace-relative locations.
- No functional code changes—documentation update for improved clarity and user guidance.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部