返回顶部
h

hwp-extract-pipelineHWP提取管道

HWP/HWPX/PDF extraction pipeline: attempt hwp-reader, then pyhwp, then OCR, with safe fallbacks. Use when agent needs reliable text extraction from Korean HWP/HWPX or PDF/scan attachments.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
139
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

hwp-extract-pipeline

hwp-extract-pipeline

这是一个简单的HWP/HWPX/PDF提取管道技能。核心目标是将本地存储的公告文件(韩文文件)稳定地转换为文本,并以JSON格式返回。

简单使用方法

  • - 执行脚本:scripts/extracthwp.py
  • 输入:本地文件路径(例如:/home/vorox/.openclaw/agents/nalda-mail-opt/data/ID>/getImageFile.do)
  • 输出:JSON输出(标准输出)并保存到数据文件夹中的_extracted.json文件

优先级(回退方式)

  1. 1. 调用hwp-reader(在可调用外部技能时)
  2. 基于pyhwp(venv)的提取
  3. 系统OCR(poppler + tesseract)——可能需要安装系统依赖
  4. 基于strings的回退

参考文档

  • - scripts/README.md(简单使用示例及集成方法)

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 hwp-extract-pipeline-1775942904 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 hwp-extract-pipeline-1775942904 技能

通过命令行安装

skillhub install hwp-extract-pipeline-1775942904

下载

⬇ 下载 hwp-extract-pipeline v1.0.0(免费)

文件大小: 3.75 KB | 发布时间: 2026-4-12 10:14

v1.0.0 最新 2026-4-12 10:14
Initial release of hwp-extract-pipeline.

- Provides robust extraction of text from HWP/HWPX/PDF (including scanned) files using a prioritized fallback pipeline.
- Supports extraction via hwp-reader, pyhwp, OCR (poppler+tesseract), and strings as last resort.
- Outputs extracted text in JSON format to stdout and as a file.
- Accepts local file paths as input for automated processing.
- Documentation and example usage available in scripts/README.md.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large