返回顶部
p

pdf-extract-skill PDF提取技能

OpenClaw PDF extraction skill using OpenDataLoader. Use when the user wants to extract and process PDF content for RAG, embeddings, or coordinate-based citations."

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.0.10
安全检测
已通过
144
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

pdf-extract-skill

技能名称: pdf-extract-skill

详细描述:

技能:OpenClaw PDF 增强器(集成 OpenDataLoader)

0) 模块化地图 (.md)

为提高可维护性并允许针对特定 .md 文件进行调用,本技能依赖以下辅助文档:
  • - CLI 快速入门:docs/quickstart-cli.md
  • 安装前安全须知:docs/security-before-install.md
  • OpenClaw 就绪配置文件:docs/profiles-openclaw.md
  • 混合模式 + OCR:docs/hybrid-mode-ocr.md
  • RAG 与边界框引用:docs/rag-citations.md
  • 故障排除:docs/troubleshooting.md

使用规则:

  • - 如果任务是设置/启动:加载 quickstart-cli.md
  • 在任何安装之前:加载 security-before-install.md
  • 如果任务是按场景执行命令:加载 profiles-openclaw.md
  • 如果任务涉及扫描件或复杂表格 PDF:加载 hybrid-mode-ocr.md
  • 如果任务是 RAG/引用:加载 rag-citations.md
  • 如果出现错误:加载 troubleshooting.md

1) 目标

本技能旨在通过 OpenDataLoader PDF,最大化 ClawHub 中 OpenClaw 的 PDF 读取质量。

核心支柱:

  • - 本地提取(非云端)以保护隐私。
  • 高质量的阅读顺序与结构(分栏、表格、布局)。
  • 面向 RAG 和 LLM 的输出(json + markdown)。
  • 简单的终端用户流程(CLI,无需 MCP)。

2) 何时使用本技能

当用户需要以下操作时,使用本技能:
  • - 从 PDF 中提取纯净文本。
  • 改进表格和多栏解析。
  • 为 RAG、嵌入或基于坐标的引用准备数据。
  • 使用 OCR 处理扫描版 PDF。
  • 描述图像/图表以使其可搜索。

以下情况请勿使用本技能:

  • - 对 PDF 工作流之外的独立图像文件进行 OCR。
  • 仅限云端且不允许本地 Java 执行的流程。

3) 核心架构规则(无 MCP)

由于 MCP 尚不存在,本技能必须仅通过 CLI 运行:
  • - 客户端命令:opendataloader-pdf
  • 混合后端命令:opendataloader-pdf-hybrid

除非严格必要,否则不要创建复杂的包装器或中间服务。

4) 稳健的先决条件

在转换前务必验证:
  • - PATH 中包含 Java 11+。
  • Python 3.10+。
  • 包安装策略:
- 生产环境中不要使用未固定版本的安装。 - 使用隔离环境(venv/容器/虚拟机)。 - 优先使用固定版本和经过验证的源。 - 参见:docs/security-before-install.md

快速检查:

  • - java -version
  • pip index versions opendataloader-pdf
  • pip show opendataloader-pdf
  • opendataloader-pdf --help

如果在 Windows 上 Java 失败,请重新打开终端并验证 PATH。

5) 标准 OpenClaw 操作流程

步骤 A:分类用户意图

  1. 1. 通用阅读/摘要 -> markdown
  2. 带元数据和引用的 RAG -> json,markdown
  3. 复杂表格或扫描版 PDF -> hybrid docling-fast
  4. 带图像描述的图表 -> hybrid + hybrid-mode full + enrich-picture-description

步骤 B:批量运行(必需)

始终在单次调用中处理多个文件,以避免每次调用的 JVM 启动开销。

推荐示例:
opendataloader-pdf file1.pdf file2.pdf ./folder/ -o ./output -f json,markdown

步骤 C:返回简单的 OpenClaw 响应格式

建议的响应:
  1. 1. 状态:ok 或 warning
  2. 已处理的文件
  3. 输出路径
  4. 生成的格式
  5. 建议的下一步操作

模板:
处理完成。N 个 PDF 已转换为 ./output,格式为 json,markdown。如果需要,我现在可以提取特定页面或为扫描文件启用 OCR。

6) 即用型 CLI 配置文件

配置文件 1:快速 LLM 读取

opendataloader-pdf ./pdfs/ -o ./output -f markdown

配置文件 2:推荐用于 RAG

opendataloader-pdf ./pdfs/ -o ./output -f json,markdown

配置文件 3:仅特定页面

opendataloader-pdf report.pdf -o ./output -f json --pages 1,3,5-7

配置文件 4:敏感数据脱敏

opendataloader-pdf report.pdf -o ./output -f markdown --sanitize

配置文件 5:保留换行符

opendataloader-pdf report.pdf -o ./output -f markdown --keep-line-breaks

配置文件 6:嵌入或外部图像

opendataloader-pdf report.pdf -o ./output -f json --image-output external opendataloader-pdf report.pdf -o ./output -f json --image-output embedded

7) 高精度混合模式

在以下情况下使用:
  • - 表格复杂或无边框。
  • PDF 为扫描件。
  • 需要多语言 OCR。
  • 需要图像/图表描述。

7.1 启动后端

标准: opendataloader-pdf-hybrid --port 5002

强制 OCR:
opendataloader-pdf-hybrid --port 5002 --force-ocr

多语言 OCR:
opendataloader-pdf-hybrid --port 5002 --force-ocr --ocr-lang es,en

带图像描述:
opendataloader-pdf-hybrid --port 5002 --enrich-picture-description

7.2 从客户端使用后端

混合自动模式: opendataloader-pdf --hybrid docling-fast file1.pdf file2.pdf ./folder/ -o ./output -f json,markdown

带超时和回退:
opendataloader-pdf --hybrid docling-fast --hybrid-timeout 120000 --hybrid-fallback file1.pdf ./folder/ -o ./output -f json

启用图像描述(需要 full 模式):
opendataloader-pdf --hybrid docling-fast --hybrid-mode full file1.pdf ./folder/ -o ./output -f json,markdown

关键说明:
如果后端使用 --enrich-picture-description 启动,客户端必须使用 --hybrid-mode full 才能在输出中包含描述。

8) 关键稳健性参数

  • - -f, --format:json, text, html, pdf, markdown, markdown-with-html, markdown-with-images
  • --pages:页码范围(示例:1,3,5-7)
  • --sanitize:匿名化电子邮件、电话号码、IP、卡号和 URL
  • --reading-order xycut:保持正确的分栏阅读顺序(推荐默认值)
  • --use-struct-tree:改善带标签 PDF 的提取效果
  • --table-method cluster:改善复杂表格检测
  • --hybrid-url:后端端点(默认本地)
  • --hybrid-timeout:超时时间(毫秒,0 表示无超时)
  • --hybrid-fallback:如果后端失败,继续使用 Java 模式

9) OpenClaw 决策矩阵

  1. 1. 如果用户需要速度和纯净文本:markdown。
  2. 如果需要精确的位置引用:json(带边界框)或 json,markdown。
  3. 如果扫描文件输出为空/质量差:后端配合 --force-ocr。
  4. 如果表格非常复杂:启用 --hybrid docling-fast。
  5. 如果必须解释图表:后端配合 --enrich-picture-description,客户端配合 --hybrid-mode full。

10) 快速故障排除

问题:找不到 Java。 解决方案:安装 Java 11+ 并使用 java -version 验证。

问题:混合后端连接错误。
解决方案:在另一个终端中启动 opendataloader-pdf-hybrid 并验证端口 5002。

问题:速度太慢。
解决方案:批量处理,增加混合超时时间,并验证后端内存。

问题:混合列。
解决方案:使用默认读取模式 (xycut) 并尝试为带标签的 PDF 使用 --use-struct-tree。

问题:表格质量差。
解决方案:使用 json 输出 + 混合模式。

11) ClawHub 最佳实践

  • - 优先使用简单、可预测的命令。
  • 用简短、可操作的步骤回答用户。
  • 推荐将 json,markdown 作为助手和 RAG 的默认格式。
  • 保持安全过滤器启用(除非明确要求,否则不要禁用内容安全)。
  • 将输出存储在特定于运行的文件夹中,以便追溯。

12) 技能质量检查清单

  • - 定义了仅 CLI 的架构(无 MCP)。
  • 清晰的安装和先决条件。
  • 可复制粘贴的执行配置文件。
  • 包含 OCR 和图像描述的

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 pdf-extract-skill-1776006182 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 pdf-extract-skill-1776006182 技能

通过命令行安装

skillhub install pdf-extract-skill-1776006182

下载

⬇ 下载 pdf-extract-skill v0.0.10(免费)

文件大小: 7.8 KB | 发布时间: 2026-4-13 11:26

v0.0.10 最新 2026-4-13 11:26
- Improved and streamlined the skill description for clarity and focus on PDF processing scenarios.
- Reworked and expanded the metadata section to include required binaries and runtimes for OpenClaw and ClawDBot.
- Updated installation and quick-start instructions; removed inline package install policy in favor of referencing security-before-install.md.
- Simplified examples and hybrid backend instructions, removing explicit localhost binding and clarifying usage steps.
- Added reminders to keep safety filters enabled and manage outputs in run-specific folders for traceability.
- Retained all modular helper documents and troubleshooting steps, ensuring continued maintainability and usability.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部