返回顶部
f

finance-ocr-pro金融OCR专业

Use this skill when the user asks to OCR, transcribe, extract, or convert the contents of a scanned PDF, image, or office document into Markdown, HTML, DOCX, or Excel. This workflow sends page images and OCR prompts to a configured OpenAI-compatible VLM endpoint and requires `API_KEY`, `BASE_URL`, and `VLM_MODEL`. It is especially valuable for financial documents and other visually complex materials with dense tables, charts, graphs, and multi-part layouts. Prefer durable background jobs for lon

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.4
安全检测
已通过
143
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

finance-ocr-pro

Finance OCR Pro

仅在用户提出OCR意图后运行此技能。

此技能特别适用于财务报表、年报、招股说明书、投资者演示文稿、监管文件、研究报告以及其他结构复杂、包含图表、图形、表格和混合布局元素的文档。

安全与隐私

在运行OCR之前,明确操作模式:

  • - 此技能需要三个环境变量,所有变量必须在OCR运行前配置完成:
- API_KEY(敏感信息)——用于向VLM端点进行身份验证的API密钥。 - BASE_URL——兼容OpenAI的VLM端点的基础URL。所有页面图像和OCR提示词都将传输到此URL。 - VLM_MODEL——支持视觉功能的模型标识符。必须支持图像输入;纯文本模型无法工作。
  • - OCR会将渲染后的页面图像和结构化提示词发送到BASEURL。这是主要的数据传输路径。在处理敏感文档前,用户必须确认端点可信。
  • 如果用户需要离线或仅本地OCR,BASEURL必须指向本地VLM服务。除非服务提供商可信,否则不要对敏感文档使用外部端点运行此技能。
  • 切勿提交包含实际值的.env文件。使用.env.example作为模板,并将真实凭据保存在本地。

运行前通知

在用户请求OCR或提取后,给出简短通知,内容包括:

  • - BASEURL是本地还是远程
  • 将使用哪个VLMMODEL
  • 将使用哪种执行模式
  • 结果将写入何处
  • 页面图像和提示词将传输到已配置的端点

除非用户要求更改这些默认设置,否则自动继续执行。

需声明的默认设置

  • - 运行模式:默认后台作业
  • 模型:VLM_MODEL
  • 线程数:1
  • 结果路径:
- 后台:~/.semantic-ocr/jobs//results/ - 同步:ocroutput/OCR/results/

环境设置

如果存在技能本地虚拟环境,则使用该环境。

  • - macOS/Linux:.venv/bin/python
  • Windows:.venv/Scripts/python.exe
  • 备用:python

运行:

bash
python scripts/ocr_setup.py --check

如果设置不完整,运行:

bash
python scripts/ocr_setup.py

首选执行方式

默认情况下,启动后台工作进程:

bash
python scripts/ocrctl.py --json start /path/to/document.pdf

然后检查进度和输出:

bash
python scripts/ocrctl.py --json status
python scripts/ocrctl.py --json artifacts
python scripts/ocrctl.py --json tail

仅当用户明确要求内联执行时使用同步模式:

bash
python scripts/ocr_main.py /path/to/document.pdf

备注

  • - 输入:PDF、常见办公文档、Apple办公格式和图像。
  • 输出:合并后的Markdown、HTML审查报告、DOCX和Excel。
  • OCR运行前需要配置APIKEY、BASEURL和VLM_MODEL。
  • 在OCR过程中,敏感文档页面会传输到已配置的端点,除非端点是本地服务。
  • 最适合处理包含表格、图表、图形和复杂页面结构的财务文档及其他视觉密集材料。
  • 办公文档转换可能需要LibreOffice。
  • VLM模型的OCR提取可能耗时较长,请定期检查状态。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 finance-ocr-pro-1775943565 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 finance-ocr-pro-1775943565 技能

通过命令行安装

skillhub install finance-ocr-pro-1775943565

下载

⬇ 下载 finance-ocr-pro v1.0.4(免费)

文件大小: 95.64 KB | 发布时间: 2026-4-12 09:57

v1.0.4 最新 2026-4-12 09:57
- Removed the `openai.yaml` configuration file.
- Updated documentation to clarify that OCR runs only after explicit user intent, not just file upload.
- Revised execution instructions and removed automated start based on file attachments.
- Clarified security, privacy, and default behaviors.
- Added a note that OCR extraction may be time-consuming; users should check status regularly.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部