Doc To Text
Extract plain readable text from Word (.doc/.docx) documents using MinerU. MinerU outputs Markdown, which is the closest format to plain text it supports.
Install
CODEBLOCK0
Quick Start
CODEBLOCK1
Authentication
No token needed for flash-extract on .docx. Token required for .doc and extract:
CODEBLOCK2
Create token at: https://mineru.net/apiManage/token
Capabilities
- - Supported input: .doc, .docx (local file or URL)
- INLINECODE4 : supports
flash-extract (no token, Markdown output to stdout) - INLINECODE6 : requires
extract with token - For truly plain text: use
extract -f json and read the text fields from the JSON output - Language hint with
--language (default: ch, use en for English)
Notes
- - MinerU does not have a
-f text option; Markdown is the closest to plain text - INLINECODE13 requires
extract with token; .docx works with INLINECODE16 - Output goes to stdout by default; use
-o <dir> to save to a file or directory - All progress/status messages go to stderr; document content goes to stdout
- MinerU is open-source by OpenDataLab (Shanghai AI Lab): https://github.com/opendatalab/MinerU
Doc To Text
使用MinerU从Word文档(.doc/.docx)中提取纯文本内容。MinerU输出Markdown格式,这是其支持的最接近纯文本的格式。
安装
bash
npm install -g mineru-open-api
或通过Go安装(macOS/Linux):
go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest
快速开始
bash
从.docx提取文本并输出到标准输出(无需令牌)
mineru-open-api flash-extract report.docx
保存到文件
mineru-open-api flash-extract report.docx -o ./out/
提取.doc(需要令牌)
mineru-open-api extract report.doc -o ./out/
JSON输出包含纯文本字段(需要令牌)
mineru-open-api extract report.docx -f json -o ./out/
身份验证
对.docx使用flash-extract无需令牌。对.doc和extract需要令牌:
bash
mineru-open-api auth # 交互式令牌设置
export MINERU_TOKEN=your-token # 或通过环境变量设置
在以下地址创建令牌:https://mineru.net/apiManage/token
功能特性
- - 支持的输入格式:.doc、.docx(本地文件或URL)
- .docx:支持flash-extract(无需令牌,Markdown输出到标准输出)
- .doc:需要使用带令牌的extract命令
- 获取纯文本:使用extract -f json并从JSON输出中读取文本字段
- 语言提示使用--language参数(默认:ch,英文文档使用en)
注意事项
- - MinerU没有-f text选项;Markdown是最接近纯文本的格式
- .doc需要使用带令牌的extract命令;.docx可使用flash-extract
- 默认输出到标准输出;使用-o 保存到文件或目录
- 所有进度/状态信息输出到标准错误输出;文档内容输出到标准输出
- MinerU由OpenDataLab(上海人工智能实验室)开源:https://github.com/opendatalab/MinerU