doc-ocr文档OCR

OCR (Optical Character Recognition) for Word documents (.docx) containing scanned pages or image-embedded content. Uses MinerU to extract text from Word files that have poor or missing text layers. Features: OCR extraction for image-based .docx files. VLM (Vision Language Model) mode for complex layouts with mixed text and images. Handles scanned document pages embedded in Word files. Converts image content to searchable, editable Markdown. Use when you need to: OCR a Word document with scanned

作者: admin | 来源: ClawHub

Doc OCR

使用OCR技术，通过MinerU从包含扫描页或嵌入图片内容的Word（.docx）文件中提取文本。

安装

bash
npm install -g mineru-open-api

或通过Go（macOS/Linux）：

go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

快速开始

bash

从.docx文件进行OCR提取（需要令牌）

mineru-open-api extract report.docx --ocr -o ./out/

使用VLM模型以提高复杂图片布局的准确性

mineru-open-api extract report.docx --ocr --model vlm -o ./out/

身份验证

需要令牌：

bash
mineru-open-api auth # 交互式令牌设置
export MINERU_TOKEN=your-token # 或通过环境变量设置

在以下地址创建令牌：https://mineru.net/apiManage/token

功能特性

- 支持的输入：.docx（本地文件或URL）
OCR仅通过extract命令可用（需要令牌）
使用--ocr标志启用对嵌入图片内容的OCR识别
对于复杂或混合内容文档，使用--model vlm参数
使用--language指定语言提示（默认：ch，英文使用en）

注意事项

- flash-extract命令中不提供OCR功能——请使用带--ocr参数的extract命令
如果.docx文件包含正常文本层，则无需OCR——请改用doc-extract命令
输出默认发送到标准输出；使用-o 参数保存到文件或目录
所有进度/状态信息发送到标准错误输出；文档内容发送到标准输出
MinerU由OpenDataLab（上海人工智能实验室）开源：https://github.com/opendatalab/MinerU

doc-ocr文档OCR

doc-ocr

Doc OCR

Install

Quick Start

Authentication

Capabilities

Notes

Doc OCR

安装

或通过Go（macOS/Linux）：

快速开始

从.docx文件进行OCR提取（需要令牌）

使用VLM模型以提高复杂图片布局的准确性

身份验证

功能特性

注意事项

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

doc-ocr文档OCR

doc-ocr

Doc OCR

Install

Quick Start

Authentication

Capabilities

Notes

Doc OCR

安装

或通过Go（macOS/Linux）：

快速开始

从.docx文件进行OCR提取（需要令牌）

使用VLM模型以提高复杂图片布局的准确性

身份验证

功能特性

注意事项

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement