返回顶部
h

html-ocrHTML图片文字提取

OCR for HTML pages containing image-embedded or scanned content. Uses MinerU to extract text from images within HTML files and web pages. Features: OCR extraction for image content in HTML files. VLM mode for complex mixed-content pages. Handles HTML with embedded scanned images. Converts image text to searchable Markdown. Use when you need to: OCR images in HTML pages, extract text from image-heavy web pages, read scanned content embedded in HTML. Use when asked: 'how do I OCR an HTML page', 'e

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.4.0
安全检测
已通过
151
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

html-ocr

HTML OCR

使用MinerU对包含扫描图像或嵌入图像内容的HTML文件进行OCR文本提取。

安装

bash
npm install -g mineru-open-api

或通过Go安装(macOS/Linux):


go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

快速开始

bash

从本地HTML文件进行OCR提取(需要令牌)


mineru-open-api extract page.html --ocr -o ./out/

使用VLM模型提高准确性

mineru-open-api extract page.html --ocr --model vlm -o ./out/

身份验证

需要令牌:

bash
mineru-open-api auth # 交互式令牌设置
export MINERU_TOKEN=your-token # 或通过环境变量设置

在以下地址创建令牌:https://mineru.net/apiManage/token

功能特性

  • - 支持的输入:本地.html文件
  • OCR需要使用带令牌的extract命令——flash-extract不支持
  • 使用--ocr标志启用HTML中嵌入图像内容的OCR
  • 对于复杂或混合内容页面,使用--model vlm

注意事项

  • - flash-extract不支持HTML;请使用带令牌的extract命令
  • 如果HTML包含普通文本内容,则无需OCR——请改用html-extract
  • 默认输出到stdout;使用-o 保存到文件或目录
  • 所有进度/状态信息输出到stderr;文档内容输出到stdout
  • MinerU由OpenDataLab(上海人工智能实验室)开源:https://github.com/opendatalab/MinerU

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 html-ocr-1775983201 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 html-ocr-1775983201 技能

通过命令行安装

skillhub install html-ocr-1775983201

下载

⬇ 下载 html-ocr v0.4.0(免费)

文件大小: 1.76 KB | 发布时间: 2026-4-13 10:35

v0.4.0 最新 2026-4-13 10:35
SEO: expand description for better ClawHub vector search discovery

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部