返回顶部
h

html-to-textHTML转文本

Convert HTML to plain readable text using MinerU. Strips HTML markup and extracts clean text content from web pages and HTML files. Features: HTML to text conversion. Removes all markup while preserving readable structure. Outputs Markdown as the closest plain-text format. JSON output mode for pure text fields. Works with local files and URLs. Use when you need to: convert HTML to plain text, strip markup from a web page, extract readable text from HTML, get text content from an HTML file. Use w

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.4.0
安全检测
已通过
143
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

html-to-text

HTML 转文本

使用 MinerU 从 HTML 文件或网页中提取纯文本可读内容。MinerU 输出的 Markdown 格式是最接近纯文本的格式。

安装

bash
npm install -g mineru-open-api

或通过 Go 安装(macOS/Linux):


go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

快速开始

bash

从本地 HTML 文件提取文本(需要令牌)


mineru-open-api extract page.html -o ./out/

从网页提取文本(需要令牌)

mineru-open-api crawl https://example.com/article

JSON 输出包含文本字段(需要令牌)

mineru-open-api extract page.html -f json -o ./out/

身份验证

需要令牌:

bash
mineru-open-api auth # 交互式令牌设置
export MINERU_TOKEN=your-token # 或通过环境变量设置

在以下地址创建令牌:https://mineru.net/apiManage/token

功能特性

  • - 支持的输入:本地 .html 文件或网页 URL
  • HTML 需要使用 extract 或 crawl(需要令牌)—— flash-extract 不支持
  • MinerU 没有 -f text 选项;Markdown 是最接近纯文本的输出格式
  • 如需纯文本:使用 extract -f json 并从 JSON 输出中读取文本字段
  • 语言提示使用 --language(默认:ch,英文使用 en)

注意事项

  • - MinerU 没有 -f text 格式;请使用 Markdown 输出或 -f json 获取文本字段
  • flash-extract 不支持 HTML
  • 默认输出到标准输出;使用 -o 保存到文件或目录
  • 所有进度/状态信息输出到标准错误输出;文档内容输出到标准输出
  • MinerU 由 OpenDataLab(上海人工智能实验室)开源:https://github.com/opendatalab/MinerU

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 html-to-text-1775899862 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 html-to-text-1775899862 技能

通过命令行安装

skillhub install html-to-text-1775899862

下载

⬇ 下载 html-to-text v0.4.0(免费)

文件大小: 1.9 KB | 发布时间: 2026-4-12 10:13

v0.4.0 最新 2026-4-12 10:13
SEO: expand description for better ClawHub vector search discovery

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部