返回顶部
m

ms-qwen-vlQwen3-VL视觉解析

调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
1,679
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ms-qwen-vl

MS-Qwen-VL 技能

基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能,使用 OpenAI SDK 兼容方式调用。

功能特点

  • - OpenAI SDK 兼容:使用标准 OpenAI SDK 调用 API
  • 多种任务支持:图像描述、OCR、视觉问答、目标检测、图表解析
  • 双模型模式:默认快速模型(30B)+ 精细高精度模型(235B)
  • 灵活输入:支持本地图片和 URL

安装与配置

bash

安装依赖


pip install -r requirements.txt

配置 API Key

cp .env.example .env

编辑 .env 文件,填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key:

MODELSCOPEAPIKEY=yourapikey_here

Claude Code 使用方式

重要:处理本地图片

当用户提供本地图片路径时(如桌面截图),必须使用 Python 脚本处理

bash
python scripts/msqwenvl.py <图片路径> --task <任务类型>

脚本会自动将本地文件转换为 ModelScope API 需要的 base64 格式。

处理 URL 图片

当用户提供网络 URL 时,同样使用上述命令,脚本会自动识别:

bash
python scripts/msqwenvl.py --task <任务类型>

Claude Code 对话示例

场景 1:分析桌面截图

用户: 请帮我描述这张图片 C:\Users\...\Desktop\screenshot.png
助手: [执行] python scripts/msqwenvl.py C:\Users\...\Desktop\screenshot.png

场景 2:OCR 识别本地图片

用户: 识别这张图中的文字: D:\Documents\invoice.jpg
助手: [执行] python scripts/msqwenvl.py D:\Documents\invoice.jpg --task ocr

场景 3:分析网络图片

用户: 分析这张图片 https://example.com/photo.jpg
助手: [执行] python scripts/msqwenvl.py https://example.com/photo.jpg --task describe

场景 4:视觉问答

用户: 这张图里有几个人?C:\Users\...\Desktop\photo.png
助手: [执行] python scripts/msqwenvl.py C:\Users\...\Desktop\photo.png --task ask --question 图片里有几个人?

任务类型对照

用户需求--task 参数
描述图片内容describe
识别文字/OCR
ocr | | 回答关于图片的问题 | ask(需要 --question) | | 检测物体 | detect | | 解析图表 | chart |

快速使用

bash

图像描述(默认)


python scripts/msqwenvl.py image.jpg

OCR 文字识别

python scripts/msqwenvl.py image.jpg --task ocr

视觉问答

python scripts/msqwenvl.py image.jpg --task ask --question 图片里有什么?

使用精细模式(235B 模型)

python scripts/msqwenvl.py image.jpg --task describe --precise

Python 代码调用:

python
from scripts.msqwenvl import analyze_image

result = analyze_image(image.jpg, task=ocr)
print(result)

任务类型

任务参数说明
图像描述describe详细描述图片内容(默认)
OCR 识别
ocr | 识别图片中的文字 | | 视觉问答 | ask | 回答关于图片的问题 | | 目标检测 | detect | 检测图片中的物体 | | 图表解析 | chart | 解析图表数据 |

环境变量

变量名说明
MODELSCOPEAPIKEYAPI 密钥(必需)
MODELSCOPE_MODEL
默认模型(可选) | | MODELSCOPEMODELPRECISE | 精细模式模型(可选) |

Resources

scripts/

msqwenvl.py - 核心解析脚本,提供 analyze_image() 统一接口

references/

api-guide.md - OpenAI SDK 兼容调用方式详细说明
models.md - Qwen3-VL 系列模型及推荐使用场景

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ms-qwen-vl-1776370610 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ms-qwen-vl-1776370610 技能

通过命令行安装

skillhub install ms-qwen-vl-1776370610

下载

⬇ 下载 ms-qwen-vl v0.1.0(免费)

文件大小: 9.64 KB | 发布时间: 2026-4-17 15:04

v0.1.0 最新 2026-4-17 15:04
- Initial release of ms-qwen-vl skill for multi-modal visual analysis via ModelScope Qwen3-VL API.
- Supports image description, OCR text extraction, visual question answering, object detection, and chart analysis.
- Compatible with OpenAI SDK, with sample Python and CLI usage provided.
- Handles both local images (auto-converted to base64) and online image URLs.
- Offers two model modes: fast (30B) and precise (235B).
- Detailed task options and usage instructions included in the documentation.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部