返回顶部
p

pdf2word-skillsPDF转Word

Convert scanned PDF documents into Word text documents using a free, local OCR engine or remote api.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
183
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

pdf2word-skills

PDF 转 Word 转换器

🇨🇳 简体中文 / Simplified Chinese

一项从扫描版PDF文档中提取文本,并使用免费的本地docrOCR引擎将其转换为可复用的Word(.docx)文件的技能。

前置条件

  1. 1. 通过下载二进制文件初始化OCR引擎:
bash bash scripts/install.sh
  1. 2. 安装所需的Python依赖:
bash pip install -r scripts/requirements.txt

使用方法

运行Python脚本,传入输入的PDF文件和期望输出的.docx文件路径。您还可以附加任何额外的标准docr参数(例如引擎偏好)。

bash
python scripts/pdf2word.py <输入文件.pdf> <输出文件.docx> [docr参数...]

示例

使用默认本地引擎转换单个文件:
bash
python scripts/pdf2word.py sample.pdf sample_output.docx

使用其他API引擎

默认情况下,脚本使用本地RapidOCR引擎。底层docr工具也支持其他引擎,如Google Gemini API,可在复杂布局上获得更高的识别精度。

要使用Gemini,请先配置您的API密钥:
bash
mkdir -p ~/.ocr
echo geminiapikey=您的gemini密钥 > ~/.ocr/config

然后向脚本传递-engine gemini参数:
bash
python scripts/pdf2word.py sample.pdf sample_output.docx -engine gemini

如果您的文档包含表格,您可以强制Gemini以Markdown格式输出表格,以便脚本将其解析为原生Word表格:
bash
python scripts/pdf2word.py sample.pdf sample_output.docx -engine gemini -prompt 提取所有文本,并使用|符号以Markdown格式保留表格。

工作原理

  1. 1. 脚本调用docr,使用指定的OCR模型(默认RapidOCR)从扫描版PDF中读取文本。
  2. 提取的文本被临时存储。
  3. 使用python-docx库读取临时文本并构建格式化的Word文档。
  4. 临时文件会被自动清理。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 pdf2word-skills-1776201782 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 pdf2word-skills-1776201782 技能

通过命令行安装

skillhub install pdf2word-skills-1776201782

下载

⬇ 下载 pdf2word-skills v1.0.0(免费)

文件大小: 6.46 KB | 发布时间: 2026-4-17 15:43

v1.0.0 最新 2026-4-17 15:43
- Initial release of pdf2word-skills.
- Converts scanned PDF documents to editable Word (.docx) files using a free, local OCR engine.
- Supports additional OCR engines through the underlying `docr` tool, including Google Gemini API.
- Provides options for handling tables and custom OCR arguments.
- Setup scripts and simple command-line usage instructions included.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部