返回顶部
v

visible-text-extractor可见文本提取

Extract and reconstruct as much visible text as possible from webpage URLs, article pages, screenshots, long images, image directories, and GIFs. Use when the goal is not just raw OCR, but a clean, human-readable result with section grouping, OCR cleanup, deduplication, structured JSON, original reading-order reconstruction, and explicit uncertainty notes. Especially useful for WeChat articles, event posters, long screenshots, mixed text-plus-image pages, and cases where visible information must

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.2.0
安全检测
已通过
126
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

visible-text-extractor

可见文本提取器

使用此技能将网页文章、URL、截图集、长图集或本地图片集合转化为完整、可读、可复用的文本。

核心工作流程

  1. 1. 从主要来源提取可见正文文本。
  2. 发现有序图片和类似GIF的资源。
  3. 在需要时对图片内容进行OCR识别。
  4. 保留原始/审计层。
  5. 执行以人为优先的清理步骤。
  6. 按可能的信息类型对图片类内容进行分类。
  7. 将图片内容重构为人类可读的补充内容,而非原始OCR转储。
  8. 优先输出精炼的Markdown格式;将原始OCR保留为JSON或附录数据。

此技能擅长的领域

  • - 通用网页文章提取
  • 微信/公众号文章提取(含特殊处理)
  • 新闻页面、博客、教程、说明文及图片密集型文章
  • 截图和长图OCR识别
  • 按显示顺序对图片目录进行OCR识别
  • 在ffmpeg可用时进行GIF帧提取及OCR识别
  • 将有噪声的OCR结果重建为更清晰的阅读版本
  • 生成读者友好的清洁输出或完整的转录风格输出

主脚本

  • - scripts/extractvisibletext.py

辅助资源

  • - scripts/postprocessocrtext.py — 清理OCR输出,合并断裂间距,移除明显垃圾内容,并重新分组为可读段落
  • scripts/extractwithbrowser.js — 针对JS密集型页面的浏览器渲染回退方案
  • scripts/extractgifframes.sh — 通过ffmpeg提取GIF帧
  • scripts/builddeliverabledocx.js — 将清理后的Markdown转换为Word文档
  • scripts/buildtranscriptdocx.js — 将转录风格的Markdown转换为Word文档
  • scripts/buildauthorizedcapturedocx.py — 针对已授权的浏览器页面、保存的HTML、截图和混合输入的一步式管道,生成清洁Markdown + JSON + Word交付物
  • scripts/extractvisibletextdeliverable.py — 从源输入到清洁Markdown + JSON + Word交付物的一步式管道
  • scripts/extractvisibletexttranscriptdeliverable.py — 转录风格完整提取输出的一步式管道
  • scripts/extractvisibletextreadingorderdeliverable.py — 阅读顺序转录输出的一步式管道
  • scripts/buildwechatinterleaveddocx.py — 通过交错排列提取的正文块和图片OCR文本(按原始流程顺序),重建微信文章阅读顺序
  • scripts/ocrhighaccuracy.py — 更高精度的OCR识别,含预处理变体和分段长图处理
  • references/output-schema.md — 目标输出结构和清理规则
  • references/deliverable-workflow.md — 一步式交付物工作流指南
  • references/troubleshooting.md — 失败模式、环境限制及如何优雅应对
  • references/product-positioning.md — 此技能的成熟交付物质量意味着什么
  • references/generalization-plan.md — 如何将技能扩展到旅游优惠、规则页面、活动海报和教程长图
  • references/universal-article-extractor-spec.md — 针对文章、混合媒体和截图密集型提取的通用能力契约

必需行为

当原始OCR有噪声时,不要止步于提取。

  • - 保留原始候选层以供追溯。
  • 当两个候选结果接近时,优先考虑可读性而非原始OCR得分。
  • 从精炼结果中移除装饰性片段、孤立符号、重复垃圾内容和近似重复行。
  • 保持不确定性可见,而非假装自信。
  • 当部分重建可行时,切勿静默丢弃主要段落。
  • 如果能够生成更清洁的重建结果,切勿将原始OCR转储作为最终答案呈现。
  • 在可用时保留文章结构:标题、副标题、作者/来源/时间、标题层级、段落、列表、说明文字、表格类行和附加注释。
  • 将有信息承载价值的图片视为一等内容,而非事后追加的附录。
  • 对于图片密集型页面,除清洁文章输出外,还支持转录风格和阅读顺序输出。

微信/公众号处理

对于mp.weixin.qq.com网址:

  • - 首先尝试专用文章提取(当可用时)。
  • 回退到静态HTML解析。
  • 必要时再回退到浏览器渲染。
  • 当用户关心文章可读性时,优先按原始阅读顺序重建最终Word输出,而非将所有图片OCR追加到末尾。
  • 当任务明确为保持微信帖子的原始文章顺序时,使用scripts/buildwechatinterleaved_docx.py。
  • 如果页面被屏蔽/验证拦截,明确报告blocked: true,而非假装成功。

典型命令

提取URL为Markdown:

bash
python3 {baseDir}/scripts/extractvisibletext.py \
--url https://example.com/post \
--format markdown \
--output result.md

提取URL为JSON:

bash
python3 {baseDir}/scripts/extractvisibletext.py \
--url https://example.com/post \
--format json \
--output result.json

提取微信文章(含回退方案):

bash
python3 {baseDir}/scripts/extractvisibletext.py \
--url https://mp.weixin.qq.com/s/xxxx \
--browser-fallback \
--page-screenshot-ocr \
--format markdown \
--output wechat.md

提取本地截图或长图:

bash
python3 {baseDir}/scripts/extractvisibletext.py \
--image ./screenshot.png \
--ocr-images \
--format markdown \
--output image-result.md

运行OCR后处理:

bash
python3 {baseDir}/scripts/postprocessocrtext.py \
--input-json ./ocr-result.json \
--title Clean Result \
--body-text Optional summary or body text \
--output-json ./clean.json \
--output-markdown ./clean.md

运行一步式交付物管道:

bash
python3 {baseDir}/scripts/extractvisibletext_deliverable.py \
--url https://mp.weixin.qq.com/s/xxxx \
--browser-fallback \
--page-screenshot-ocr \
--ocr-images \
--dedupe \
--output-prefix ./deliverable/result

这将输出:

  • - result.raw.json
  • result.clean.json
  • result.clean.md
  • result.docx

当页面可在浏览器中打开或先导出/保存时,运行已授权捕获管道:

bash
python3 {baseDir}/scripts/buildauthorizedcapture_docx.py \
--url https://example.com/page \
--browser-capture \
--ocr-images \
--dedupe \
--output-prefix ./deliverable/captured

适用场景:

  • - 浏览器可以打开页面但直接抓取不完整
  • 用户提供保存的HTML页面加截图
  • 用户希望一条命令将可见页面内容转换为Word文档
  • 用户希望看到状态可见性,而非静默长时间等待

此管道的操作预期:

  • - 打印阶段日志,使长时间OCR作业看起来不会卡住
  • 如果未创建预期输出,则大声失败
  • 尽早检测明显的微信验证/插页文本
  • 可选地,一次运行将生成的docx发送回飞书
  • 当来源被屏蔽时,停止假装并切换到授权输入工作流:保存的HTML、截图、长图、复制的文本

实用优化规则:

  • - 不要以相同模式持续攻击被屏蔽的来源
  • 如果浏览器/直接抓取返回验证文本,立即转向最佳授权工件路径
  • 优先考虑交付质量:用户捕获的可见内容优于重复的被屏蔽抓取尝试

关键选项

  • - --url 网页URL
  • --text-file 本地纯文本/Markdown输入
  • --html-file 本地保存的HTML页面
  • --image PATH 添加一个本地图片或GIF;可按需重复
  • --image-dir DIR 对目录中所有支持的图片/GIF进行OCR识别
  • --format markdown|json 输出格式
  • --output PATH 输出文件路径
  • --ocr-images 对发现或提供的图片进行OCR识别
  • --dedupe 去重重复的合并行
  • --browser-fallback 对不完整页面使用浏览器渲染回退方案
  • --page-screenshot-ocr 作为最后手段,对浏览器全页截图进行OCR识别
  • --gif-mode none|placeholder 保守的GIF处理模式

质量标准

默认目标:生成人类可舒适阅读且无需清理即可分享的内容。

文章交付物的发布级质量目标:

  • - 只要源结构允许

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 visible-text-extractor-1776055038 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 visible-text-extractor-1776055038 技能

通过命令行安装

skillhub install visible-text-extractor-1776055038

下载

⬇ 下载 visible-text-extractor v1.2.0(免费)

文件大小: 66.63 KB | 发布时间: 2026-4-14 10:54

v1.2.0 最新 2026-4-14 10:54
Visible Text Extractor 1.0.0 – Initial release

- Initial public release with support for webpage, article, screenshot, long image, GIF, and image directory text extraction.
- Adds dedicated scripts for WeChat article order reconstruction, high-accuracy OCR, and multi-stage cleanup.
- Introduces specialized pipelines for clean, human-readable output (markdown/Word/JSON).
- Provides workflow and reference documentation for usage, publishing, and release notes.
- Includes multiple extraction and deliverable pipelines, especially tailored for WeChat articles and complex, image-heavy sources.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部