返回顶部
P

PDFlux-PDF2MarkdownPDF转Markdown

Convert unstructured documents into LLM-ready structured data. Supports PDF, Word, PPT, and images; extracts paragraphs, formulas, tables, charts, and other elements in one step; generates up to 8 levels of headings; and outputs Markdown organized in reading order. Useful for field extraction, comparison and validation, knowledge retrieval, and intelligent Q&A.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.3
安全检测
已通过
117
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

PDFlux-PDF2Markdown

PDFlux-PDF2Markdown

通过PDRouter运行一个JavaScript工作流,将单个本地文件上传到pdflux服务,轮询解析状态,然后下载生成的Markdown。这适用于文档解析、表格提取、内容验证以及将文档内容传递给后续脚本。

安装

bash
npx skills add PaodingAI/skills

使用

bash
node skills/pdflux-saas-markdown/scripts/uploadtomarkdown.js <本地文件路径> [输出Markdown路径]

执行约束

  • - 必须直接调用scripts/uploadtomarkdown.js。不要自行重新实现上传、轮询和Markdown下载流程。
  • 以下行为契约说明了脚本的功能、输出内容以及使用时机。它不是供模型逐步模仿的手动检查清单。
  • 即使任务仅涉及提取表格、读取字段、检查正文内容或为后续脚本准备输入,也必须先运行此脚本,然后基于生成的Markdown继续操作。
  • 仅当脚本本身不可用、运行失败或需要修复时,才检查或修改脚本实现。在正常使用期间不要绕过它。

使用时机

  • - 当用户想要解析文档、检索特定文档内容或从文档中提取表格时,使用此技能。
  • 当用户说转换为Markdown、输出Markdown、导出Markdown或提取Markdown时,使用此技能并直接返回Markdown内容。
  • 当后续工作依赖于文档内容(如摘要、字段提取、文档处理脚本、表格比较或基于规则的验证)时,首先使用此技能解析文档。
  • 当文档内容仅作为后续步骤的输入时,默认不要向用户显示完整的原始Markdown。建议先将其保存到临时或工作文件中,然后读取、筛选并仅提取所需内容。
  • 当用户明确要求原始Markdown输出或明确希望进行直接的文档到Markdown转换时,直接显示完整的Markdown。

环境变量

  • - PDROUTERAPIKEY:必需。PDRouter的Bearer API密钥。如果缺失,脚本会立即失败。在技能工作流中,AI应要求用户提供有效密钥,或在重试前将其注入环境。API密钥可从PDRouter平台获取:https://platform.paodingai.com/
  • PDFLUXINCLUDEIMAGES:可选。布尔值。默认情况下Markdown输出不包含图像数据。

安全与数据流

  • - 此技能将用户指定的一个本地文件上传到官方PDRouter端点https://platform.paodingai.com。
  • 脚本仅读取PDROUTERAPI_KEY以验证对官方PDRouter服务的请求。
  • 脚本不会将API密钥打印到标准输出或标准错误输出。
  • 生成的Markdown写入标准输出,如果指定了输出文件路径,也会写入该文件。
  • 脚本不支持任意网络目标或自定义上传主机。

默认行为与可选设置

  • - 默认情况下,解析结果不包含图表或图像提取。
  • 如果需要图表、图像或类似内容,请通过API参数显式启用。这些结果通常以base64格式返回,会增加令牌使用量。
  • 默认情况下Markdown输出不包含图像数据。如果需要嵌入图像数据,请设置PDFLUXINCLUDEIMAGES=true。

脚本行为

  1. 1. 从PDROUTERAPI_KEY读取令牌。如果缺失,立即失败并提示AI要求用户提供密钥或先注入环境变量。
  2. 使用POST /openapi/{serviceCode}/upload将文件上传到官方PDRouter端点,使用Authorization: Bearer
  3. 轮询GET /openapi/{serviceCode}/document/{uuid},直到parsed === 2。
  4. 如果解析状态变为负数,立即失败。
  5. 从GET /openapi/{serviceCode}/document/{uuid}/markdown下载Markdown。
  6. 如果提供了output-markdown-path,脚本还会将Markdown写入该文件,同时仍将其打印到标准输出。
  7. 脚本将进度和错误信息写入标准错误输出,并在失败时返回非零退出码。
  8. 当目标是检索特定内容、字段或表格时,读取解析结果并仅返回必要信息,而不是将完整的原始Markdown回显给用户。
  9. 当用户明确要求转换为Markdown、输出Markdown或表达类似意图时,直接返回Markdown内容,而不是仅返回摘要或提取的字段。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 pdflux-test-1775933762 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 pdflux-test-1775933762 技能

通过命令行安装

skillhub install pdflux-test-1775933762

下载

⬇ 下载 PDFlux-PDF2Markdown v1.0.3(免费)

文件大小: 5.69 KB | 发布时间: 2026-4-12 10:57

v1.0.3 最新 2026-4-12 10:57
- Added explicit security and data flow section to SKILL.md, clarifying upload endpoint, authentication, and no support for arbitrary hosts.
- Updated required environment variables to only mandate PD_ROUTER_API_KEY; others are now optional.
- Changed metadata to specify "primaryEnv" as PD_ROUTER_API_KEY.
- Removed mention of configurable upload host in environment variables.
- Clarified documentation about official endpoints and limited network scope.
- Bumped version metadata to 1.0.2 in SKILL.md.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部