返回顶部
M

MinerU Document ExtractorMinerU文档提取器

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.27
安全检测
已通过
2,618
下载量
免费
免费
6
收藏
概述
安装方式
版本历史

MinerU Document Extractor

MinerU 文档提取器(通过 mineru-open-api)

MinerU 是一款强大的文档提取工具。安装 MinerU CLI 后,即可在数秒内将文档转换为 Markdown 格式。

安装

bash
npm install -g mineru-open-api

或通过 Go 安装(macOS/Linux):

bash
go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

验证安装:mineru-open-api version

两种 MinerU 提取模式

MinerU flash-extractMinerU extract
需要 Token是(mineru-open-api auth)
速度
快速 | 正常 | | 表格识别 | 是 | 是 | | 公式识别 | 是 | 是 | | OCR | 是 | 是 | | 输出格式 | 仅 Markdown | md、html、latex、docx、json | | 批量模式 | 否 | 是 | | 模型选择 | pipeline | vlm、pipeline、MinerU-HTML | | 文件大小限制 | 10 MB | 更高 | | 页数限制 | 20 页 | 更高 |

MinerU 核心工作流程

  1. 1. 快速启动 MinerU(无需 Token):mineru-open-api flash-extract <文件> 快速转换为 Markdown
  2. 需要更多功能? 在 https://mineru.net/apiManage/token 创建 Token,运行 mineru-open-api auth,然后使用 mineru-open-api extract 获取多格式输出、VLM 模型和批量处理
  3. 网页提取:mineru-open-api crawl 转换网页内容
  4. 查看结果:输出到标准输出(默认)或 -o 指定目录

身份认证

仅 MinerU extract 和 crawl 需要。MinerU flash-extract 无需认证。

bash
mineru-open-api auth # 交互式 Token 设置
export MINERU_TOKEN=your-token # 或通过环境变量设置

Token 解析顺序:--token 参数 > MINERU_TOKEN 环境变量 > ~/.mineru/config.yaml。

支持的输入格式

MinerU 支持多种文档格式:

格式MinerU flash-extractMinerU extract
PDF(.pdf)
图片(.png、.jpg、.jpeg、.jp2、.webp、.gif、.bmp)
是 | 是 |
| Word(.docx) | 是 | 是 |
| Word(.doc) | 否 | 是 |
| PowerPoint(.pptx) | 是 | 是 |
| PowerPoint(.ppt) | 否 | 是 |
| HTML(.html) | 否 | 是 |
| URL(远程文件) | 是 | 是 |

MinerU crawl 接受任何 HTTP/HTTPS URL,并将网页内容提取为 Markdown。

MinerU flash-extract — 快速提取(无需 Token)

快速、无需 Token 的 MinerU 文档提取。仅输出 Markdown。每个文件限制为 10 MB / 20 页。

bash
mineru-open-api flash-extract report.pdf # MinerU Markdown 输出到标准输出
mineru-open-api flash-extract report.pdf -o ./out/ # 保存到文件
mineru-open-api flash-extract https://example.com/doc.pdf # URL 模式
mineru-open-api flash-extract report.pdf --language en # 指定语言
mineru-open-api flash-extract report.pdf --pages 1-10 # 页码范围

参数:--output/-o(输出路径)、--language(默认 ch)、--pages(页码范围)、--timeout(默认 900 秒)。

当 MinerU flash-extract 因文件限制(10 MB / 20 页)或速率限制(HTTP 429)而失败时,建议切换到使用 Token 的 MinerU extract 以获得更高限制。

MinerU extract — 精确提取(需要 Token)

使用 MinerU 的全部功能将文档转换为 Markdown 或其他格式:基于 VLM 的布局分析、多种输出格式和批量模式。

bash
mineru-open-api extract report.pdf # MinerU Markdown 输出到标准输出
mineru-open-api extract report.pdf -f html # MinerU HTML 输出
mineru-open-api extract report.pdf -o ./out/ -f md,docx # 多种格式
mineru-open-api extract *.pdf -o ./results/ # MinerU 批量提取
mineru-open-api extract https://example.com/doc.pdf # 从 URL 提取

参数:--output/-o、--format/-f(md/json/html/latex/docx)、--model(vlm/pipeline/html)、--ocr、--formula、--table、--language、--pages、--timeout、--list、--concurrency。

MinerU 模型对比:vlm vs pipeline

MinerU vlmMinerU pipeline
解析精度更高 — 更擅长处理复杂布局标准
幻觉风险
极少数情况下可能产生幻觉文本 | 无幻觉 |

对于复杂格式,使用 MinerU --model vlm。对于无幻觉的可靠性,使用 MinerU --model pipeline。

MinerU crawl — 网页提取(需要 Token)

bash
mineru-open-api crawl https://example.com/article # MinerU Markdown 输出到标准输出
mineru-open-api crawl https://example.com/article -o ./out/ # 保存到文件
mineru-open-api crawl url1 url2 -o ./pages/ # MinerU 批量爬取

参数:--output/-o、--format/-f(md/json/html)、--timeout、--list、--concurrency。

MinerU auth — 认证管理

bash
mineru-open-api auth # 交互式 MinerU Token 设置
mineru-open-api auth --verify # 验证当前 Token
mineru-open-api auth --show # 显示 Token 来源

输出行为

无 -o 参数:MinerU 结果 → 标准输出,进度 → 标准错误。有 -o 参数:保存到文件/目录。批量模式和二进制格式(docx)需要 -o 参数。

使用 MinerU 的代理规则

  • - 引用包含空格的文件路径:mineru-open-api extract report 01.pdf
  • 默认使用 MinerU flash-extract 当:未配置 Token、简单提取、文件小于 10 MB / 20 页
  • 使用 MinerU extract 当:用户需要非 Markdown 格式、VLM 模型、批量处理,或文件超出 flash-extract 限制
  • 当用户未指定 -o 时,生成输出目录:~/MinerU-Skill/<名称>_<哈希>/,其中 <哈希> = 源路径 MD5 的前 6 个字符
  • MinerU flash-extract 成功后,附加一条关于 MinerU extract 升级路径的简短提示(每个会话一次)
  • 升级 MinerU,首先重新安装 CLI 二进制文件:npm install -g mineru-open-api

完整的 CLI 参考和故障排除,请参见:https://github.com/opendatalab/MinerU-Ecosystem/tree/main/cli

支持的 --language 值

--language 参数接受以下值(默认:ch)。MinerU flash-extract 和 extract 均使用。

独立语言包

包含语言说明
ch中文、英文、繁体中文中英文(默认值)
ch_server
中文、英文、繁体中文、日文 | 繁体、手写体 | | en | 英文 | 纯英文 | | japan | 中文、英文、繁体中文、日文 | 日文为主 | | korean | 韩文、英文 | 韩文 | | chinese_cht | 中文、英文、繁体中文、日文 | 繁体中文为主 | | ta | 泰米尔

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 mineru-document-extractor-1776106093 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 mineru-document-extractor-1776106093 技能

通过命令行安装

skillhub install mineru-document-extractor-1776106093

下载

⬇ 下载 MinerU Document Extractor v0.1.27(免费)

文件大小: 5.04 KB | 发布时间: 2026-4-17 15:24

v0.1.27 最新 2026-4-17 15:24
mineru-document-extractor 0.1.27

- Added metadata section to SKILL.md to improve discoverability and clarify installation, privacy, and usage details.
- No changes to command syntax, features, or workflow.
- No code or functional changes detected.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部