MS-Qwen-VL Skill

基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能，使用 OpenAI SDK 兼容方式调用。

功能特点

- OpenAI SDK 兼容：使用标准 OpenAI SDK 调用 API
多种任务支持：图像描述、OCR、视觉问答、目标检测、图表解析
双模型模式：默认快速模型（30B）+ 精细高精度模型（235B）
灵活输入：支持本地图片和 URL

安装与配置

CODEBLOCK0

编辑 .env 文件，填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key：

CODEBLOCK1

Claude Code 使用方式

重要：处理本地图片

当用户提供本地图片路径时（如桌面截图），必须使用 Python 脚本处理：

CODEBLOCK2

脚本会自动将本地文件转换为 ModelScope API 需要的 base64 格式。

处理 URL 图片

当用户提供网络 URL 时，同样使用上述命令，脚本会自动识别：

CODEBLOCK3

Claude Code 对话示例

场景 1：分析桌面截图
CODEBLOCK4

场景 2：OCR 识别本地图片
CODEBLOCK5

场景 3：分析网络图片
CODEBLOCK6

场景 4：视觉问答
CODEBLOCK7

任务类型对照

用户需求	--task 参数
描述图片内容	describe
识别文字/OCR

快速使用

CODEBLOCK8

Python 代码调用：

CODEBLOCK9

任务类型

任务	参数	说明
图像描述	INLINECODE1	详细描述图片内容（默认）
OCR 识别

环境变量

变量名	说明
INLINECODE6	API 密钥（必需）
INLINECODE7

默认模型（可选） | | MODELSCOPE_MODEL_PRECISE | 精细模式模型（可选） |

Resources

scripts/

msqwenvl.py - 核心解析脚本，提供 analyze_image() 统一接口

references/

api-guide.md - OpenAI SDK 兼容调用方式详细说明
models.md - Qwen3-VL 系列模型及推荐使用场景

MS-Qwen-VL 技能

基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能，使用 OpenAI SDK 兼容方式调用。

功能特点

- OpenAI SDK 兼容：使用标准 OpenAI SDK 调用 API
多种任务支持：图像描述、OCR、视觉问答、目标检测、图表解析
双模型模式：默认快速模型（30B）+ 精细高精度模型（235B）
灵活输入：支持本地图片和 URL

安装与配置

bash

安装依赖

pip install -r requirements.txt

配置 API Key

cp .env.example .env

编辑 .env 文件，填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key：

MODELSCOPEAPIKEY=yourapikey_here

Claude Code 使用方式

重要：处理本地图片

当用户提供本地图片路径时（如桌面截图），必须使用 Python 脚本处理：

bash
python scripts/msqwenvl.py <图片路径> --task <任务类型>

脚本会自动将本地文件转换为 ModelScope API 需要的 base64 格式。

处理 URL 图片

当用户提供网络 URL 时，同样使用上述命令，脚本会自动识别：

bash
python scripts/msqwenvl.py --task <任务类型>

Claude Code 对话示例

场景 1：分析桌面截图

用户: 请帮我描述这张图片 C:\Users\...\Desktop\screenshot.png
助手: [执行] python scripts/msqwenvl.py C:\Users\...\Desktop\screenshot.png

场景 2：OCR 识别本地图片

用户: 识别这张图中的文字: D:\Documents\invoice.jpg
助手: [执行] python scripts/msqwenvl.py D:\Documents\invoice.jpg --task ocr

场景 3：分析网络图片

用户: 分析这张图片 https://example.com/photo.jpg
助手: [执行] python scripts/msqwenvl.py https://example.com/photo.jpg --task describe

场景 4：视觉问答

用户: 这张图里有几个人？C:\Users\...\Desktop\photo.png
助手: [执行] python scripts/msqwenvl.py C:\Users\...\Desktop\photo.png --task ask --question 图片里有几个人？

任务类型对照

用户需求	--task 参数
描述图片内容	describe
识别文字/OCR

快速使用

bash

图像描述（默认）

python scripts/msqwenvl.py image.jpg

OCR 文字识别

python scripts/msqwenvl.py image.jpg --task ocr

视觉问答

python scripts/msqwenvl.py image.jpg --task ask --question 图片里有什么？

使用精细模式（235B 模型）

python scripts/msqwenvl.py image.jpg --task describe --precise

Python 代码调用：

python
from scripts.msqwenvl import analyze_image

result = analyze_image(image.jpg, task=ocr)
print(result)

任务类型

任务	参数	说明
图像描述	describe	详细描述图片内容（默认）
OCR 识别

环境变量

变量名	说明
MODELSCOPEAPIKEY	API 密钥（必需）
MODELSCOPE_MODEL

默认模型（可选） | | MODELSCOPEMODELPRECISE | 精细模式模型（可选） |

Resources

scripts/

msqwenvl.py - 核心解析脚本，提供 analyze_image() 统一接口

references/

api-guide.md - OpenAI SDK 兼容调用方式详细说明
models.md - Qwen3-VL 系列模型及推荐使用场景

ms-qwen-vlQwen3-VL视觉解析

ms-qwen-vl

MS-Qwen-VL Skill

功能特点

安装与配置

Claude Code 使用方式

重要：处理本地图片

处理 URL 图片

Claude Code 对话示例

任务类型对照

快速使用

任务类型

环境变量

Resources

scripts/

references/

MS-Qwen-VL 技能

功能特点

安装与配置

安装依赖

配置 API Key

Claude Code 使用方式

重要：处理本地图片

处理 URL 图片

Claude Code 对话示例

任务类型对照

快速使用

图像描述（默认）

OCR 文字识别

视觉问答

使用精细模式（235B 模型）

任务类型

环境变量

Resources

scripts/

references/

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement