返回顶部
g

glmocrGLM图像文字提取

Extract text from images using GLM-OCR API. Supports images and PDFs with

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.3
安全检测
已通过
472
下载量
免费
免费
2
收藏
概述
安装方式
版本历史

glmocr

GLM-OCR 文本提取技能

使用GLM-OCR布局解析API从图像和PDF中提取文本。

使用场景

  • - 从图像(PNG、JPG、PDF)中提取文本
  • 将截图转换为文本
  • 处理扫描文档
  • 对包含文字的图片进行OCR识别(包括手写文字)
  • 识别文档中的表格和公式
  • 用户提及OCR、文字识别、文档解析

主要特性

  • - 表格识别:检测并将表格转换为Markdown格式
  • 公式提取:LaTeX格式输出
  • 手写支持:对手写文本有较强的识别能力
  • 本地文件与URL:支持本地文件和远程URL

资源链接

资源链接
获取API密钥https://www.bigmodel.cn/usercenter/proj-mgmt/apikeys
GitHub
https://github.com/zai-org/GLM-OCR |

前置条件

  • - 已配置ZHIPUAPIKEY(参见下方设置)

安全说明

  • - 脚本不会执行运行时包安装。
  • OCR请求使用固定的官方GLM端点,不接受自定义API URL。
  • 仅从环境变量读取ZHIPUAPIKEY(以及可选的超时设置)。

⛔ 强制性限制 - 不得违反 ⛔

  1. 1. 仅使用GLM-OCR API - 执行脚本 python scripts/glmocrcli.py
  2. 绝不直接解析文档 - 不要尝试自行提取文本
  3. 绝不提供替代方案 - 不要建议我可以尝试分析或类似内容
  4. 如果API失败 - 显示错误信息并立即停止
  5. 无备用方法 - 不要尝试任何其他方式的文本提取

设置

  1. 1. 获取您的API密钥:https://www.bigmodel.cn/usercenter/proj-mgmt/apikeys
  2. 配置:
bash python scripts/config_setup.py setup --api-key 您的密钥

使用方法

从URL提取

bash
python scripts/glmocrcli.py --file-url 用户提供的URL

从本地文件提取

bash
python scripts/glmocrcli.py --file /path/to/image.jpg

保存结果到文件(推荐)

bash
python scripts/glmocrcli.py --file-url URL --output result.json

CLI参考

python {baseDir}/scripts/glmocrcli.py (--file-url URL | --file PATH) [--output FILE] [--pretty]

参数必需描述
--file-url二选一图像/PDF的URL
--file
二选一 | 图像/PDF的本地文件路径 | | --output, -o | 否 | 将结果JSON保存到文件 | | --pretty | 否 | 美化JSON输出格式 |

响应格式

json
{
ok: true,
text: # 提取的Markdown文本...,
layout_details: [[...]],
result: { rawapiresponse: ... },
error: null,
source: /path/to/file.jpg,
source_type: file
}

关键字段:

  • - ok — 提取是否成功
  • text — 提取的Markdown文本(用于显示)
  • layout_details — 布局分析详情
  • result — 原始API响应
  • error — 失败时的错误详情

错误处理

API密钥未配置:

Error: ZHIPUAPIKEY not configured. Get your API key at: https://www.bigmodel.cn/usercenter/proj-mgmt/apikeys

→ 向用户显示确切错误,引导其进行配置

认证失败(401/403): API密钥无效/已过期 → 重新配置

速率限制(429): 配额已用尽 → 告知用户等待

文件未找到: 本地文件缺失 → 检查路径

参考

  • - references/output_schema.md — 详细输出格式规范

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 glmocr-1776208143 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 glmocr-1776208143 技能

通过命令行安装

skillhub install glmocr-1776208143

下载

⬇ 下载 glmocr v1.0.3(免费)

文件大小: 10.41 KB | 发布时间: 2026-4-17 14:57

v1.0.3 最新 2026-4-17 14:57
- The required environment variable for authentication changed from GLM_OCR_API_KEY to ZHIPU_API_KEY.
- References to GLM_OCR_API_KEY were updated to ZHIPU_API_KEY throughout the documentation, including in prerequisites and error handling.
- No functional or CLI changes; documentation reflects the new API key requirement.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部