参数	说明	类型
image_source	图片路径或 URL	string (必填)
prompt

glm-understand-image

使用GLM视觉MCP服务器进行图像理解和分析。

执行流程（首次需要安装，后续直接步骤6调用）

步骤1：检查并安装依赖

1.1 检查mcporter是否可用

bash
npx -y mcporter --version

如果命令返回成功，说明mcporter可用，跳到步骤2。

mcporter可以直接通过npx使用，无需安装。

步骤2：检查API Key配置

bash
cat ~/.openclaw/config/glm.json 2>/dev/null | python3 -c import json,sys; d=json.load(sys.stdin); print(d.get(api_key, ))

如果返回非空的API Key，跳到步骤4。

步骤3：配置API Key（如果未配置）

3.2 如果没有找到Key，向用户索要

询问用户提供智谱API Key。

如果用户没有智谱API Key，可以访问 https://www.bigmodel.cn/glm-coding?ic=OOKF4KGGTW 购买。

3.3 保存API Key

bash
mkdir -p ~/.openclaw/config
cat > ~/.openclaw/config/glm.json << EOF
{
api_key: API密钥
}
EOF

步骤4：添加MCP服务器

使用mcporter添加GLM视觉MCP服务器：

bash
mcporter config add glm-vision \
--command npx -y @z_ai/mcp-server \
--env ZAIAPI_KEY=your-key \
--env ZAIMODE=ZHIPU \
--env HOME=$PWD

注意：将your-key替换为实际的智谱API Key。HOME环境变量设置为当前工作目录以避免日志文件权限问题。

步骤5：测试连接

bash
mcporter list

确认glm-vision服务器已成功添加。

步骤6：使用MCP处理图像

6.1 准备图片

将图片放到可访问路径，例如：

- ~/.openclaw/workspace/images/图片名.jpg
或者使用URL

6.2 使用mcporter调用MCP工具

使用mcporter调用MCP服务：

bash
mcporter call glm-vision.analyzeimage prompt=<对图片的提问> imagesource=<图片路径或URL>

示例：

bash

描述图片内容

mcporter call glm-vision.analyzeimage prompt=详细描述这张图片的内容 imagesource=~/image.jpg

使用URL

mcporter call glm-vision.analyzeimage prompt=这张图片展示了什么？ imagesource=https://example.com/image.jpg

提取图片中的文字

mcporter call glm-vision.extracttextfromscreenshot imagesource=~/screenshot.png

诊断错误截图

mcporter call glm-vision.diagnoseerrorscreenshot prompt=分析这个错误 image_source=~/error.png

6.3 API参数说明

参数	说明	类型
image_source	图片路径或URL	string (必填)
prompt

对图片的提问 | string (必填) |

支持的工具

重要提示：如果出现问题以官方说明为准
官方版说明：https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

GLM视觉MCP服务器提供以下工具：

- uitoartifact - 将UI截图转换为代码、提示词、设计规范或自然语言描述
extracttextfromscreenshot - 使用先进的OCR能力从截图中提取和识别文字
diagnoseerrorscreenshot - 解析错误弹窗、堆栈和日志截图，给出定位与修复建议
understandtechnicaldiagram - 针对架构图、流程图、UML、ER图等技术图纸生成结构化解读
analyzedatavisualization - 阅读仪表盘、统计图表，提炼趋势、异常与业务要点
uidiffcheck - 对比两张UI截图，识别视觉差异和实现偏差
analyzeimage - 通用图像理解能力，适配未被专项工具覆盖的视觉内容
video_analysis - 支持MP4/MOV/M4V等格式的视频场景解析，抓取关键帧、事件与要点

MCP配置

MCP服务器名称：glm-vision

MCP服务器配置：@z_ai/mcp-server

环境变量：

- ZAIAPIKEY - 智谱API Key（必需）
ZAI_MODE - 服务平台选择，默认为ZHIPU

glm-understand-imageGLM图像理解