返回顶部
p

pdf-visionPDF视觉提取

Extract text content from image-based/scanned PDFs using multiple vision APIs with automatic fallback. Supports Xflow (qwen3-vl-plus) and ZhipuAI (GLM-4.6V-Flash, GLM-5) vision models. This skill converts PDF pages to images and uses AI vision capabilities to extract structured text, tables, and content from scanned documents that cannot be processed with traditional text extraction methods.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
60
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

pdf-vision

PDF视觉提取技能(增强版)

概述

本技能处理基于图像或扫描的PDF文件,这些文件不包含可选文本。支持多种视觉API,并具备自动回退功能:

主要模型

  • - Xflow:qwen3-vl-plus(您的主要视觉模型)
  • 智谱AI:glm-4.6v-flash(免费视觉模型,支持回退)
  • 回退模型:glm-5(纯文本模型,但在某些情况下可处理图像提示)

与仅适用于文本型PDF的传统PDF文本提取工具(pdftotext、pdfplumber)不同,本技能可处理:

  • - 扫描文档
  • 纯图像PDF
  • 拍照文档
  • 手写笔记(有限制)
  • 包含表格和格式的复杂布局

支持的模型

视觉能力模型
提供商模型类型上下文免费
Xflowqwen3-vl-plus视觉+文本131K
智谱AI
glm-4.6v-flash | 视觉+文本 | 32K | ✅ |

| 智谱AI | glm-5 | 纯文本* | 128K | ❌ |

额外文本模型(用于回退)
提供商模型上下文免费
智谱AIglm-4-flash-250414128K
智谱AI
cogview-3-flash | 32K | ✅ |

*注意:glm-5主要是纯文本模型,但在某些情况下可处理图像提示。

前置条件

1. API配置

您的OpenClaw必须配置以下两个提供商:

Xflow配置(已设置):

  • - models.providers.openai.baseUrl:https://apis.iflow.cn/v1
  • models.providers.openai.apiKey:您的Xflow API密钥

智谱AI配置(更新令牌):

  • - models.providers.zhipuai.baseUrl:https://open.bigmodel.cn/api/paas/v4
  • models.providers.zhipuai.apiKey:您的智谱AI API令牌

2. 必需的系统工具

  • - pypdfium2 Python库(用于PDF转图像)
  • curl(用于API调用)
  • base64(用于图像编码)

3. Python库(已安装)

bash pypdfium2

使用方法

自动回退模式(默认)

优先使用Xflow,必要时回退到智谱AI: bash ./scripts/pdf_vision.py --pdf-path /path/to/document.pdf

指定模型选择

出于成本或性能原因强制使用特定模型: bash

使用免费的GLM-4.6V-Flash模型

./scripts/pdf_vision.py --pdf-path document.pdf --model zhipuai/glm-4.6v-flash

使用特定的Xflow模型

./scripts/pdf_vision.py --pdf-path document.pdf --model openai/qwen3-vl-plus

简短形式(自动检测提供商)

./scripts/pdf_vision.py --pdf-path document.pdf --model glm-4.6v-flash

结构化数据提取

bash ./scripts/pdf_vision.py --pdf-path invoice.pdf --prompt 提取为JSON:供应商、日期、总计 --model glm-4.6v-flash

多页PDF处理

bash

专门处理第3页

./scripts/pdf_vision.py --pdf-path book.pdf --page 3 --output page3.txt

配置

环境变量

本技能从您的OpenClaw配置文件(~/.openclaw/openclaw.json)读取配置:
  • - models.providers.openai.baseUrl 和 apiKey
  • models.providers.zhipuai.baseUrl 和 apiKey

输出格式

返回提取的文本内容作为字符串。对于结构化数据请求,AI模型将根据您的提示指令格式化输出。

示例

成本优化提取(免费模型)

命令: --model glm-4.6v-flash 使用场景: 当您想使用免费视觉能力时 结果: 零成本的优质提取

高质量提取(高级模型)

命令: --model qwen3-vl-plus 使用场景: 当您需要最大准确度和复杂布局理解时 结果: 最佳提取质量

自动回退(推荐)

命令: 无--model标志 使用场景: 可靠性至关重要的生产环境 结果: 使用最佳可用模型,优雅回退

模型对比

GLM-4.6V-Flash(免费)

  • - ✅ 完全免费
  • ✅ 良好的中文文本识别
  • ✅ 不错的表格结构保留
  • ⚠️ 较低的上下文窗口(32K vs 131K)
  • ⚠️ 可能难以处理非常复杂的布局

Qwen3-VL-Plus(高级)

  • - ✅ 卓越的图像理解能力
  • ✅ 出色的表格和结构识别
  • ✅ 更大的上下文窗口(131K)
  • ✅ 更好的混合语言处理
  • ❌ 需要付费API访问

限制

  • - 单页处理:目前一次处理一页
  • 图像质量:更高分辨率的扫描件效果更好
  • 复杂布局:可能难以处理非常密集或重叠的文本
  • 手写内容:手写内容的准确度有限
  • 文件大小:大型PDF可能超过API令牌限制

技术实现

本技能遵循以下工作流程:

  1. 1. PDF转图像:使用pypdfium2将指定PDF页面转换为PNG
  2. 模型选择:根据用户偏好或回退逻辑选择模型
  3. API调用:将图像+提示发送到选定的视觉API端点
  4. 响应解析:提取并返回AI生成的文本内容
  5. 回退:如果主要模型失败,尝试替代模型

调试时,临时文件创建在/tmp/目录下:

  • - /tmp/pdfvisionpage.png - 转换后的图像
  • /tmp/pdfvisionpayload.json - API请求负载
  • /tmp/pdfvisionresponse.json - API响应

集成说明

本技能补充了标准的pdf技能:

  • - 对文本型PDF使用pdf技能(更快,无API成本)
  • 基于图像/扫描的PDF使用pdf-vision技能(需要视觉API)

两种技能可以在回退模式中一起使用:

  1. 1. 先尝试pdf技能
  2. 如果未提取到文本,回退到pdf-vision技能

成本优化技巧

  1. 1. 日常任务使用GLM-4.6V-Flash - 免费且相当有能力
  2. 复杂文档保留Qwen3-VL-Plus - 当您需要最大准确度时
  3. 在您的文档类型上测试两个模型 - 根据您的质量要求选择
  4. 监控API使用情况 - 跟踪您最常使用的模型

更新您的GLM API令牌

替换配置中的占位符令牌:
bash

将YOURACTUALGLM_TOKEN替换为您的真实令牌


sed -i s/YOURGLMAPITOKENHERE/YOURACTUALGLM_TOKEN/g ~/.openclaw/openclaw.json

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 pdf-vision-1775898789 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 pdf-vision-1775898789 技能

通过命令行安装

skillhub install pdf-vision-1775898789

下载

⬇ 下载 pdf-vision v1.0.0(免费)

文件大小: 13.1 KB | 发布时间: 2026-4-12 10:57

v1.0.0 最新 2026-4-12 10:57
- Initial release of pdf-vision skill: extract text content from scanned or image-based PDFs using advanced vision models.
- Supports multiple AI vision APIs (Xflow qwen3-vl-plus, ZhipuAI glm-4.6v-flash, fallback to glm-5) for robust extraction.
- Converts PDF pages to images and processes them via vision models, overcoming traditional text-extraction limitations.
- Automatically selects the best available model with graceful fallback if a model is unavailable.
- Handles structured data extraction, multi-page processing, and can be configured for cost optimization or maximum quality.
- Complements standard text-based PDF extraction; use with scanned/image PDFs for best results.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部