返回顶部
p

paddleocr-vl-locallyPaddleOCR本地解析

Complex document parsing with PaddleOCR. Intelligently converts complex PDFs and document images into Markdown and JSON files that preserve the original structure.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
228
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

paddleocr-vl-locally

PaddleOCR 文档解析技能

何时使用此技能

使用文档解析的场景

  • - 包含表格的文档(发票、财务报告、电子表格)
  • 包含数学公式的文档(学术论文、科学文档)
  • 包含图表和示意图的文档
  • 多栏布局(报纸、杂志、宣传册)
  • 需要布局分析的复杂文档结构
  • 任何需要结构化理解的文档

应使用文本识别的场景

  • - 简单的纯文本提取
  • 对速度要求较高的快速OCR任务
  • 文字清晰的截图或简单图片

安装

使用此技能前需安装Python依赖。从技能目录(skills/paddleocr-doc-parsing)执行:

bash
pip install -r scripts/requirements.txt

可选 — 用于文档优化和split_pdf.py(页面提取):

bash
pip install -r scripts/requirements-optimize.txt

如何使用此技能

⛔ 强制限制 - 不得违反 ⛔

  1. 1. 仅使用PaddleOCR文档解析API - 执行脚本python scripts/vl_caller.py
  2. 切勿直接解析文档 - 不要自行解析文档
  3. 切勿提供替代方案 - 不要说我可以尝试分析或类似内容
  4. 如果API失败 - 显示错误信息并立即停止
  5. 无备用方法 - 不要尝试任何其他方式的文档解析

如果脚本执行失败(API未配置、网络错误等):

  • - 向用户显示错误信息
  • 不要主动提出使用您的视觉能力提供帮助
  • 不要问您希望我尝试解析吗?
  • 直接停止并等待用户修复配置

基本工作流程

  1. 1. 执行文档解析
bash python scripts/vl_caller.py --file-url 用户提供的URL --pretty

或用于本地文件:
bash
python scripts/vl_caller.py --file-path 文件路径 --pretty

可选:显式设置文件类型
bash
python scripts/vl_caller.py --file-url 用户提供的URL --file-type 0 --pretty

- --file-type 0:PDF
- --file-type 1:图片
- 如果省略,服务可从输入推断文件类型。

默认行为:将原始JSON保存到临时文件
- 如果省略--output,脚本自动保存到系统临时目录下
- 默认路径格式:<系统临时目录>/paddleocr/doc-parsing/results/result<时间戳>.json
- 如果提供了--output,则覆盖默认的临时文件目标路径
- 如果提供了--stdout,JSON将输出到标准输出且不保存文件
- 在保存模式下,脚本会在标准错误输出打印绝对保存路径:Result saved to: /绝对路径/...
- 在默认/自定义保存模式下,在响应前读取并解析已保存的JSON文件
- 在保存模式下,始终告知用户已保存的文件路径以及完整的原始JSON可在该处获取
- 仅在明确需要跳过文件持久化时使用--stdout

  1. 2. 输出JSON包含完整内容,包含所有文档数据:
- 页眉、页脚、页码 - 正文内容 - 带结构的表格 - 公式(含LaTeX) - 图形和图表 - 脚注和参考文献 - 印章和戳记 - 布局和阅读顺序

输入类型说明
- 支持的文件类型取决于模型和端点配置。
- 始终遵循端点API文档中规定的文件类型限制。

  1. 3. 使用以下字段从输出JSON中提取用户所需内容
- 顶层text - result[n].markdown - result[n].prunedResult

重要:完整内容显示

关键:您必须根据用户需求显示完整的提取内容。

  • - 输出JSON以结构化格式包含所有文档内容
  • 在保存模式下,可在保存的JSON文件中查看原始提供者结果
  • 显示用户请求的完整内容,不要截断或总结
  • 如果用户要求所有文本,显示整个text字段
  • 如果用户要求表格,显示文档中所有表格
  • 如果用户要求主要内容,过滤掉页眉/页脚但显示所有正文

这意味着

  • - :按请求显示完整文本、所有表格、所有公式
  • :使用以下字段呈现内容:顶层text、result[n].markdown和result[n].prunedResult
  • 不要:用...截断,除非内容过长(超过10,000字符)
  • 不要:在用户要求完整内容时进行总结或提供摘录
  • 不要:在用户期望完整输出时说以下是预览

示例 - 正确

用户:提取此文档中的所有文本
智能体:我已解析完整文档。以下是提取的所有文本:

[按阅读顺序显示整个文本字段或拼接的区域]

文档统计:

  • - 总区域数:25
  • 文本块:15
  • 表格:3
  • 公式:2

质量:优秀(置信度:0.92)

示例 - 错误

用户:提取所有文本
智能体:我发现了一个包含多个部分的文档。以下是开头部分:
引言...(为简洁起见已截断内容)

理解JSON响应

输出JSON使用信封包装原始API结果:

json
{
ok: true,
text: 从所有页面提取的完整markdown/HTML文本,
result: { ... }, // 原始提供者响应
error: null
}

关键字段

  • - text — 从所有页面提取的markdown文本(用于快速文本显示)
  • result - 原始提供者响应对象
  • result[n].prunedResult - 每页的结构化解析输出(布局/内容/置信度及相关元数据)
  • result[n].markdown — 每页的完整渲染输出(markdown/HTML格式)

原始结果位置(默认):脚本在标准错误输出打印的临时文件路径

使用示例

示例1:提取完整文档文本
bash
python scripts/vl_caller.py \
--file-url https://example.com/paper.pdf \
--pretty

然后使用:

  • - 顶层text用于快速全文输出
  • 需要页面级输出时使用result[n].markdown

示例2:提取结构化页面数据
bash
python scripts/vl_caller.py \
--file-path ./financial_report.pdf \
--pretty

然后使用:

  • - result[n].prunedResult用于结构化解析数据(布局/内容/置信度)
  • result[n].markdown用于渲染的页面内容

示例3:打印JSON而不保存
bash
python scripts/vl_caller.py \
--file-url URL \
--stdout \
--pretty

然后返回:

  • - 用户要求完整文档内容时返回完整text
  • 用户需要完整结构化页面数据时返回result[n].prunedResult和result[n].markdown

首次配置

当API未配置时

错误将显示:

CONFIGERROR: PADDLEOCRDOCPARSINGAPI_URL未配置。请将其设置为您的Triton端点,例如:http://10.0.0.1:8020/v2/models/layout-parsing/infer

配置工作流程

  1. 1. 向用户显示确切的错误信息
  1. 2. 引导用户进行配置
- 将PADDLEOCRDOCPARSINGAPIURL设置为完整的Triton推理端点URL。 格式:http://<主机>:<端口>/v2/models/layout-parsing/infer 示例:http://10.0.133.33:8020/v2/models/layout-parsing/infer - 如果服务位于带基本认证的nginx后面,还需设置: - PADDLEOCRBASICAUTHUSER — nginx用户名(例如ocradmin) - PADDLEOCRBASICAUTH_PASSWORD — nginx密码 - 本地部署不需要PADDLEOCRACCESSTOKEN。留空或省略即可。 - 可选设置PADDLEOCRDOCPARSING_TIMEOUT(默认:600秒)。 - 在OpenClaw中,在~/.openclaw/openclaw.json中设置环境变量: json { skills: { entries: { paddleocr-doc-parsing: { enabled: true, env: { PADDLEOCRDOCPARSINGAPIURL: http://10.0.133.33:8020/v2/models/layout

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 paddleocr-vl-locally-1776294903 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 paddleocr-vl-locally-1776294903 技能

通过命令行安装

skillhub install paddleocr-vl-locally-1776294903

下载

⬇ 下载 paddleocr-vl-locally v1.0.2(免费)

文件大小: 18.45 KB | 发布时间: 2026-4-17 15:41

v1.0.2 最新 2026-4-17 15:41
No user-facing changes were detected in this release.

- Internal or metadata updates may have been made without affecting usage or documentation.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部