返回顶部
h

html-to-htmlHTML清理重构

Clean and restructure HTML documents using MinerU. Takes messy or complex HTML and produces clean, well-formatted HTML output with proper structure preserved. Features: HTML cleanup and restructuring. Removes unnecessary markup and noise. Preserves core content structure. Produces clean HTML from cluttered web pages. Use when you need to: clean up messy HTML, restructure an HTML document, convert complex HTML to clean HTML, sanitize HTML content. Use when asked: 'how do I clean this HTML', 'make

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.4.0
安全检测
已通过
148
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

html-to-html

HTML 转 HTML

获取远程网页或本地HTML文件,并使用MinerU将其转换为清晰结构化的HTML。去除噪声并保留语义内容。

安装

bash
npm install -g mineru-open-api

或通过Go(macOS/Linux):


go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

快速开始

bash

抓取网页并输出干净的HTML(需要令牌)


mineru-open-api crawl https://example.com/article -f html -o ./out/

重新提取本地HTML文件为干净的HTML(需要令牌)

mineru-open-api extract page.html -f html -o ./out/

批量抓取多个URL为HTML(需要令牌)

mineru-open-api crawl url1 url2 -f html -o ./pages/

身份认证

需要令牌:

bash
mineru-open-api auth # 交互式令牌设置
export MINERU_TOKEN=your-token # 或通过环境变量设置

在以下地址创建令牌:https://mineru.net/apiManage/token

功能

  • - 输入:远程网页URL或本地.html文件
  • 输出:清晰结构化的HTML(-f html)
  • 远程URL:使用 crawl -f html
  • 本地HTML文件:使用 extract -f html
  • 需要令牌 — 在 flash-extract 中不可用

注意事项

  • - HTML输出(-f html)需要令牌;在 flash-extract 中不可用
  • crawl 支持的输出格式:md、html、json
  • extract 支持的输出格式:md、html、latex、docx、json
  • 默认输出到标准输出;使用 -o 保存到文件或目录
  • 所有进度/状态信息输出到标准错误;文档内容输出到标准输出
  • MinerU 由 OpenDataLab(上海人工智能实验室)开源:https://github.com/opendatalab/MinerU

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 html-to-html-1775983143 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 html-to-html-1775983143 技能

通过命令行安装

skillhub install html-to-html-1775983143

下载

⬇ 下载 html-to-html v0.4.0(免费)

文件大小: 1.89 KB | 发布时间: 2026-4-13 10:35

v0.4.0 最新 2026-4-13 10:35
SEO: expand description for better ClawHub vector search discovery

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部