调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。
基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能,使用 OpenAI SDK 兼容方式调用。
bash
编辑 .env 文件,填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key:
MODELSCOPEAPIKEY=yourapikey_here
当用户提供本地图片路径时(如桌面截图),必须使用 Python 脚本处理:
bash
python scripts/msqwenvl.py <图片路径> --task <任务类型>
脚本会自动将本地文件转换为 ModelScope API 需要的 base64 格式。
当用户提供网络 URL 时,同样使用上述命令,脚本会自动识别:
bash
python scripts/msqwenvl.py
场景 1:分析桌面截图
用户: 请帮我描述这张图片 C:\Users\...\Desktop\screenshot.png
助手: [执行] python scripts/msqwenvl.py C:\Users\...\Desktop\screenshot.png
场景 2:OCR 识别本地图片
用户: 识别这张图中的文字: D:\Documents\invoice.jpg
助手: [执行] python scripts/msqwenvl.py D:\Documents\invoice.jpg --task ocr
场景 3:分析网络图片
用户: 分析这张图片 https://example.com/photo.jpg
助手: [执行] python scripts/msqwenvl.py https://example.com/photo.jpg --task describe
场景 4:视觉问答
用户: 这张图里有几个人?C:\Users\...\Desktop\photo.png
助手: [执行] python scripts/msqwenvl.py C:\Users\...\Desktop\photo.png --task ask --question 图片里有几个人?
| 用户需求 | --task 参数 |
|---|---|
| 描述图片内容 | describe |
| 识别文字/OCR |
bash
Python 代码调用:
python
from scripts.msqwenvl import analyze_image
result = analyze_image(image.jpg, task=ocr)
print(result)
| 任务 | 参数 | 说明 |
|---|---|---|
| 图像描述 | describe | 详细描述图片内容(默认) |
| OCR 识别 |
| 变量名 | 说明 |
|---|---|
| MODELSCOPEAPIKEY | API 密钥(必需) |
| MODELSCOPE_MODEL |
msqwenvl.py - 核心解析脚本,提供 analyze_image() 统一接口
api-guide.md - OpenAI SDK 兼容调用方式详细说明
models.md - Qwen3-VL 系列模型及推荐使用场景
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 ms-qwen-vl-1776370610 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 ms-qwen-vl-1776370610 技能
skillhub install ms-qwen-vl-1776370610
文件大小: 9.64 KB | 发布时间: 2026-4-17 15:04