返回顶部
a

aliyun-qwen-ocr阿里云Qwen OCR

Use when OCR-specialized extraction is needed with Alibaba Cloud Model Studio Qwen OCR models (`qwen-vl-ocr`, `qwen-vl-ocr-latest`, and snapshots), including document parsing, table parsing, multilingual OCR, formula recognition, and key information extraction.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
123
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

aliyun-qwen-ocr

技能名称: aliyun-qwen-ocr

详细描述:
类别: 提供方

Model Studio Qwen OCR

验证

bash
mkdir -p output/aliyun-qwen-ocr
python -m pycompile skills/ai/multimodal/aliyun-qwen-ocr/scripts/prepareocrrequest.py && echo pycompile_ok > output/aliyun-qwen-ocr/validate.txt

通过标准:命令退出码为0,且生成 output/aliyun-qwen-ocr/validate.txt 文件。

输出与证据

  • - 将请求负载、所选OCR任务名称以及标准化输出预期保存至 output/aliyun-qwen-ocr/ 目录下。
  • 每次保存运行时,需保留确切的模型、图像来源及任务配置。

当任务主要为文本提取或文档结构解析,而非广泛的视觉推理时,请使用Qwen OCR。

关键模型名称

使用以下确切的模型字符串之一:

  • - qwen-vl-ocr
  • qwen-vl-ocr-latest
  • qwen-vl-ocr-2025-11-20
  • qwen-vl-ocr-2025-08-28
  • qwen-vl-ocr-2025-04-13
  • qwen-vl-ocr-2024-10-28

选择指南:

  • - 稳定通道请使用 qwen-vl-ocr。
  • 仅当明确需要最新OCR行为时,使用 qwen-vl-ocr-latest。
  • 当需要基于Qwen3-VL OCR升级实现可复现的文档解析时,固定使用 qwen-vl-ocr-2025-11-20。

前置条件

  • - 安装依赖(建议在虚拟环境中进行):

bash
python3 -m venv .venv
. .venv/bin/activate
python -m pip install requests

  • - 在环境中设置 DASHSCOPEAPIKEY,或将 dashscopeapikey 添加到 ~/.alibabacloud/credentials 文件中。

标准化接口 (ocr.extract)

请求

  • - image(字符串,必填):HTTPS URL、本地路径或 data: URL。
  • model(字符串,可选):默认为 qwen-vl-ocr。
  • prompt(字符串,可选):当需要自定义提取指令时使用。
  • task(字符串,可选):内置OCR任务。
  • taskconfig(对象,可选):内置任务的配置,例如提取字段。
  • enablerotate(布尔值,可选):默认为 false。
  • minpixels(整数,可选)
  • maxpixels(整数,可选)
  • max_tokens(整数,可选)
  • temperature(浮点数,可选):建议保持在默认/较低值附近。

响应

  • - text(字符串):提取的文本或结构化的Markdown/HTML风格输出。
  • model(字符串)
  • usage(对象,可选)

内置OCR任务

在 task 中使用以下值之一:

  • - textrecognition
  • keyinformationextraction
  • documentparsing
  • tableparsing
  • formularecognition
  • multilan
  • advancedrecognition

快速开始

自定义提示:

bash
python skills/ai/multimodal/aliyun-qwen-ocr/scripts/prepareocrrequest.py \
--image https://example.com/invoice.png \
--prompt 以JSON格式提取卖家名称、发票日期、金额和税号。

内置任务:

bash
python skills/ai/multimodal/aliyun-qwen-ocr/scripts/prepareocrrequest.py \
--image https://example.com/table.png \
--task table_parsing \
--model qwen-vl-ocr-2025-11-20

操作指南

  • - 对于标准解析任务,优先使用内置OCR任务,因为它们使用官方任务提示。
  • 对于关键业务字段,在OCR之后添加下游验证规则。
  • qwen-vl-ocr 及较旧快照默认最大输出令牌数为 4096,除非阿里云批准更高限制;qwen-vl-ocr-2025-11-20 遵循模型最大限制。
  • 仅在遗漏小文本时增加 max_pixels;这会提高令牌成本。

输出位置

  • - 默认输出:output/aliyun-qwen-ocr/request.json
  • 使用 OUTPUT_DIR 覆盖基础目录。

参考资料

  • - references/api_reference.md
  • references/sources.md

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 aliyun-qwen-ocr-1775884629 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 aliyun-qwen-ocr-1775884629 技能

通过命令行安装

skillhub install aliyun-qwen-ocr-1775884629

下载

⬇ 下载 aliyun-qwen-ocr v1.0.0(免费)

文件大小: 4.5 KB | 发布时间: 2026-4-12 08:57

v1.0.0 最新 2026-4-12 08:57
Initial release of aliyun-qwen-ocr.

- Provides OCR extraction using Alibaba Cloud Model Studio Qwen OCR models.
- Supports document parsing, table parsing, multilingual OCR, formula recognition, and key information extraction.
- Standardized `ocr.extract` interface with flexible image input, tasks, and prompt customization.
- Includes clear model selection guidance and built-in OCR task descriptions.
- Output, validation, and configuration instructions included for fast integration.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部