返回顶部
g

glm-understand-imageGLM图像理解

使用 GLM 视觉 MCP 进行图像理解和分析。触发条件:(1) 用户要求分析图片、理解图像、描述图片内容 (2) 需要识别图片中的物体、文字、场景 (3) 使用 GLM 的视觉理解功能

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.4
安全检测
已通过
925
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

glm-understand-image

glm-understand-image

使用GLM视觉MCP服务器进行图像理解和分析。

执行流程(首次需要安装,后续直接步骤6调用)

步骤1:检查并安装依赖

1.1 检查mcporter是否可用

bash
npx -y mcporter --version

如果命令返回成功,说明mcporter可用,跳到步骤2。

mcporter可以直接通过npx使用,无需安装。

步骤2:检查API Key配置

bash
cat ~/.openclaw/config/glm.json 2>/dev/null | python3 -c import json,sys; d=json.load(sys.stdin); print(d.get(api_key, ))

如果返回非空的API Key,跳到步骤4。

步骤3:配置API Key(如果未配置)

3.2 如果没有找到Key,向用户索要

询问用户提供智谱API Key。

如果用户没有智谱API Key,可以访问 https://www.bigmodel.cn/glm-coding?ic=OOKF4KGGTW 购买。

3.3 保存API Key

bash
mkdir -p ~/.openclaw/config
cat > ~/.openclaw/config/glm.json << EOF
{
api_key: API密钥
}
EOF

步骤4:添加MCP服务器

使用mcporter添加GLM视觉MCP服务器:

bash
mcporter config add glm-vision \
--command npx -y @z_ai/mcp-server \
--env ZAIAPI_KEY=your-key \
--env ZAIMODE=ZHIPU \
--env HOME=$PWD

注意:将your-key替换为实际的智谱API Key。HOME环境变量设置为当前工作目录以避免日志文件权限问题。

步骤5:测试连接

bash
mcporter list

确认glm-vision服务器已成功添加。

步骤6:使用MCP处理图像

6.1 准备图片

将图片放到可访问路径,例如:

  • - ~/.openclaw/workspace/images/图片名.jpg
  • 或者使用URL

6.2 使用mcporter调用MCP工具

使用mcporter调用MCP服务:

bash
mcporter call glm-vision.analyzeimage prompt=<对图片的提问> imagesource=<图片路径或URL>

示例:

bash

描述图片内容


mcporter call glm-vision.analyzeimage prompt=详细描述这张图片的内容 imagesource=~/image.jpg

使用URL

mcporter call glm-vision.analyzeimage prompt=这张图片展示了什么? imagesource=https://example.com/image.jpg

提取图片中的文字

mcporter call glm-vision.extracttextfromscreenshot imagesource=~/screenshot.png

诊断错误截图

mcporter call glm-vision.diagnoseerrorscreenshot prompt=分析这个错误 image_source=~/error.png

6.3 API参数说明

参数说明类型
image_source图片路径或URLstring (必填)
prompt
对图片的提问 | string (必填) |

支持的工具

重要提示:如果出现问题以官方说明为准
官方版说明:https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

GLM视觉MCP服务器提供以下工具:

  • - uitoartifact - 将UI截图转换为代码、提示词、设计规范或自然语言描述
  • extracttextfromscreenshot - 使用先进的OCR能力从截图中提取和识别文字
  • diagnoseerrorscreenshot - 解析错误弹窗、堆栈和日志截图,给出定位与修复建议
  • understandtechnicaldiagram - 针对架构图、流程图、UML、ER图等技术图纸生成结构化解读
  • analyzedatavisualization - 阅读仪表盘、统计图表,提炼趋势、异常与业务要点
  • uidiffcheck - 对比两张UI截图,识别视觉差异和实现偏差
  • analyzeimage - 通用图像理解能力,适配未被专项工具覆盖的视觉内容
  • video_analysis - 支持MP4/MOV/M4V等格式的视频场景解析,抓取关键帧、事件与要点

MCP配置

MCP服务器名称:glm-vision

MCP服务器配置:@z_ai/mcp-server

环境变量:

  • - ZAIAPIKEY - 智谱API Key(必需)
  • ZAI_MODE - 服务平台选择,默认为ZHIPU

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 glm-understand-image-1776420048 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 glm-understand-image-1776420048 技能

通过命令行安装

skillhub install glm-understand-image-1776420048

下载

⬇ 下载 glm-understand-image v1.0.4(免费)

文件大小: 2.76 KB | 发布时间: 2026-4-17 18:10

v1.0.4 最新 2026-4-17 18:10
- 移除了自动检测和读取已有的 API Key 文件(auth-profiles.json),简化 API Key 配置流程。
- 步骤 3 现在只提供直接向用户索要智谱 API Key 的说明,并保留手动填写和保存方式。
- 其余流程和功能保持不变。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部