返回顶部
d

doc-to-textWord转文本

Extract plain readable text from Word documents (.doc, .docx) using MinerU. Outputs Markdown (the closest plain-text format supported) for easy reading and processing. Features: quick text extraction from .docx without token (flash-extract). Full extraction for .doc and .docx with token. JSON output mode with dedicated text fields for true plain text. Language support for English, Chinese, and more. Use when you need to: get plain text from a Word file, extract readable content from .docx, conve

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.4.0
安全检测
已通过
164
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

doc-to-text

Doc To Text

使用MinerU从Word文档(.doc/.docx)中提取纯文本内容。MinerU输出Markdown格式,这是其支持的最接近纯文本的格式。

安装

bash
npm install -g mineru-open-api

或通过Go安装(macOS/Linux):


go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

快速开始

bash

从.docx提取文本并输出到标准输出(无需令牌)


mineru-open-api flash-extract report.docx

保存到文件

mineru-open-api flash-extract report.docx -o ./out/

提取.doc(需要令牌)

mineru-open-api extract report.doc -o ./out/

JSON输出包含纯文本字段(需要令牌)

mineru-open-api extract report.docx -f json -o ./out/

身份验证

对.docx使用flash-extract无需令牌。对.doc和extract需要令牌:

bash
mineru-open-api auth # 交互式令牌设置
export MINERU_TOKEN=your-token # 或通过环境变量设置

在以下地址创建令牌:https://mineru.net/apiManage/token

功能特性

  • - 支持的输入格式:.doc、.docx(本地文件或URL)
  • .docx:支持flash-extract(无需令牌,Markdown输出到标准输出)
  • .doc:需要使用带令牌的extract命令
  • 获取纯文本:使用extract -f json并从JSON输出中读取文本字段
  • 语言提示使用--language参数(默认:ch,英文文档使用en)

注意事项

  • - MinerU没有-f text选项;Markdown是最接近纯文本的格式
  • .doc需要使用带令牌的extract命令;.docx可使用flash-extract
  • 默认输出到标准输出;使用-o 保存到文件或目录
  • 所有进度/状态信息输出到标准错误输出;文档内容输出到标准输出
  • MinerU由OpenDataLab(上海人工智能实验室)开源:https://github.com/opendatalab/MinerU

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 doc-to-text-1775985262 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 doc-to-text-1775985262 技能

通过命令行安装

skillhub install doc-to-text-1775985262

下载

⬇ 下载 doc-to-text v0.4.0(免费)

文件大小: 1.95 KB | 发布时间: 2026-4-13 10:04

v0.4.0 最新 2026-4-13 10:04
SEO: expand description for better ClawHub vector search discovery

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部