返回顶部
q

qwencloud-vision通义千问视觉

[QwenCloud] Understand images and videos with Qwen vision models. TRIGGER when: user wants to analyze, describe, or extract information from images or videos, OCR text extraction, chart/table reading, visual reasoning, multi-image comparison, screenshot understanding, video comprehension, or explicitly invokes this skill by name (e.g. use qwencloud-vision). DO NOT TRIGGER when: user wants to generate/create images (use qwencloud-image-generation), generate videos (use qwencloud-video-generation)

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
104
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

qwencloud-vision

Agent 设置:如果你的代理不会自动加载技能(例如 Claude Code),请在每个会话中查看一次 agent-compatibility.md

Qwen 视觉(图像与视频理解)

使用 Qwen VL 和 QVQ 模型分析图像和视频。
此技能是 qwencloud/qwencloud-ai 的一部分。

技能目录

使用此技能的内部文件来执行和学习。当默认路径失败或需要详细信息时,按需加载参考文件。

位置用途
scripts/analyze.py图像/视频理解、多图像、思考模式
scripts/reason.py
视觉推理(QVQ、思维链、流式输出) |
| scripts/ocr.py | OCR 文本提取 |
| scripts/vision_lib.py | 共享辅助函数(base64、上传、流式输出) |
| references/execution-guide.md | 备用方案:curl、代码生成 |
| references/curl-examples.md | 用于 base64、多图像、视频、OCR 的 curl 示例 |
| references/visual-reasoning.md | QVQ 和思考模式详情 |
| references/prompt-guide.md | 按任务、思考模式决策的查询提示模板 |
| references/ocr.md | OCR 参数和示例 |
| references/sources.md | 官方文档 URL |
| references/agent-compatibility.md | 代理自检:为不自动加载技能的代理在项目配置中注册技能 |

安全

切勿以明文形式输出任何 API 密钥或凭证。 始终使用变量引用(shell 中使用 $DASHSCOPEAPIKEY,Python 中使用 os.environ[DASHSCOPEAPIKEY])。任何对凭证的检查或检测必须是非明文的:仅报告状态(例如“已设置”/“未设置”、“有效”/“无效”),切勿报告值本身。切勿显示可能包含机密的 .env 或配置文件内容。

当 API 密钥未配置时,切勿要求用户直接提供。 相反,应帮助创建一个包含占位符(DASHSCOPEAPIKEY=sk-your-key-here)的 .env 文件,并指导用户从 QwenCloud 控制台 将其替换为实际密钥。仅当用户明确要求时,才写入实际的密钥值。

密钥兼容性

脚本需要标准的 QwenCloud API 密钥(sk-...)。编码计划密钥(sk-sp-...)不能用于直接 API 调用,也不支持专用的视觉模型(qwen3-vl-plus、qvq-max 等)。脚本在启动时会检测 sk-sp- 密钥并打印警告。如果安装了 qwencloud-ops-auth,请参阅其 references/codingplan.md 以获取完整详情。

模型选择

模型使用场景
qwen3.5-plus首选 — 统一多模态(文本+图像+视频)。默认开启思考模式。
qwen3.5-flash
快速多模态 — 更便宜、更快。默认开启思考模式。 | | qwen3-vl-plus | 高精度 — 物体定位(2D/3D)、文档/网页解析。 | | qwen3-vl-flash | 快速视觉 — 更低延迟,支持 33 种语言。 | | qvq-max | 视觉推理 — 用于数学、图表的思维链。仅支持流式输出。 | | qwen-vl-ocr | OCR — 文本提取、表格解析、文档扫描。 | | qwen-vl-max | Qwen2.5-VL — 2.5 系列中性能最佳。 | | qwen-vl-plus | Qwen2.5-VL — 速度更快,性能和成本平衡良好,支持 11 种语言。 |
  1. 1. 用户指定了模型 → 直接使用。
  2. 当模型选择取决于需求、场景或定价时,请咨询 qwencloud-model-selector 技能。
  3. 无信号,任务明确 → qwen3.5-plus。对于精确定位或 3D 检测,使用 qwen3-vl-plus。

⚠️ 重要提示:上述模型列表是时间点快照,可能已过时。模型可用性
经常变化。在做出模型决策之前,务必查看官方模型列表
以获取权威的最新目录。

执行

前提条件

  • - API 密钥:使用非明文检查(例如在 shell 中:[ -n $DASHSCOPEAPIKEY ];仅报告“已设置”或“未设置”,切勿报告密钥值)来确认 DASHSCOPEAPIKEY(或 QWENAPIKEY)是否已设置。如果未设置:运行 qwencloud-ops-auth 技能(如果可用);否则指导用户从 QwenCloud 控制台 获取密钥,并通过 .env 文件(在项目根目录或当前目录执行 echo DASHSCOPEAPI_KEY=sk-your-key-here >> .env)或环境变量进行设置。脚本会在当前工作目录和项目根目录中搜索 .env。技能可能独立安装 — 不要假定 qwencloud-ops-auth 存在。
  • Python 3.9+(仅标准库,无需 pip 安装

环境检查

在首次执行之前,确认 Python 可用:

bash
python3 --version # 必须是 3.9+

如果找不到 python3,请尝试 python --version 或 py -3 --version。如果 Python 不可用或低于 3.9,请跳转到 execution-guide.md 中的路径 2 (curl)

默认:运行脚本

脚本路径:脚本位于此技能目录(包含此 SKILL.md 的目录)的 scripts/ 子目录中。你必须首先找到此技能的安装目录,然后始终使用完整的绝对路径来执行脚本。 不要假定脚本位于当前工作目录。不要在执行前使用 cd 切换目录。共享基础设施位于 scripts/vision_lib.py。

执行说明: 在前台运行所有脚本 — 等待标准输出;不要后台运行。

发现: 首先运行 python3 <此技能目录>/scripts/analyze.py --help(或 reason.py、ocr.py)以查看所有可用参数。

脚本用途默认模型
scripts/analyze.py图像理解、多图像、视频、思考模式、高分辨率qwen3.5-plus
scripts/reason.py
带思维链的视觉推理、视频推理(始终流式输出) | qvq-max |
| scripts/ocr.py | 从文档、收据、表格中提取 OCR 文本 | qwen-vl-ocr |

输入类型字段(在 --request JSON 中仅使用一个):

字段用途示例
image单张图像(URL 或本地路径)image: photo.jpg
images
多图像比较(数组) | images: [a.jpg, b.jpg] |
| video | 视频文件(URL 或本地路径) | video: clip.mp4 |
| videoframes | 视频作为帧数组 | videoframes: [f1.jpg, f2.jpg] |

⚠️ 常见错误:不要对视频文件使用 image — 应使用 video。

bash

图像分析


python3 <此技能目录>/scripts/analyze.py \
--request {prompt:这张图片里有什么?,image:https://example.com/photo.jpg} \
--output output/qwencloud-vision/result.json --print-response

视频分析(本地文件 — 对于 >= 7 MB 的文件添加 --upload-files)

python3 <此技能目录>/scripts/analyze.py \ --request {prompt:描述这个视频中发生了什么,video:clip.mp4} \ --upload-files --print-response

python3 <此技能目录>/scripts/reason.py \
--request {prompt:逐步解决这个数学问题,image:problem.png} \
--print-response

python3 <此技能目录>/scripts/ocr.py \
--request {image

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 qwencloud-vision-1775933528 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 qwencloud-vision-1775933528 技能

通过命令行安装

skillhub install qwencloud-vision-1775933528

下载

⬇ 下载 qwencloud-vision v0.1.0(免费)

文件大小: 42.9 KB | 发布时间: 2026-4-12 11:10

v0.1.0 最新 2026-4-12 11:10
Initial release of qwencloud-vision: Qwen Vision Models for advanced image and video understanding.

- Supports analysis, description, and extraction of information from images and videos, including OCR, chart/table reading, visual reasoning, multi-image comparison, and video comprehension.
- Provides scripts for image/video analysis, visual reasoning (chain-of-thought/streaming), and OCR extraction, compatible with Qwen VL/QVQ models.
- Integrated model selection logic with up-to-date model list and clear guidance on standard QwenCloud API key usage.
- Detailed, secure guidance for agent setup, API key handling, and script execution without exposing secrets.
- Includes comprehensive directory with references for execution guides, prompts, compatibility notes, and script usage.
- Python 3.9+ required; no external pip dependencies.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部