glm-understand-image
使用 GLM 视觉 MCP 服务器进行图像理解和分析。
执行流程(首次需要安装,后续直接步骤6调用)
步骤 1: 检查并安装依赖
1.1 检查 mcporter 是否可用
CODEBLOCK0
如果命令返回成功,说明 mcporter 可用,跳到步骤 2。
mcporter 可以直接通过 npx 使用,无需安装。
步骤 2: 检查 API Key 配置
CODEBLOCK1
如果返回非空的 API Key,跳到步骤 4。
步骤 3: 配置 API Key(如果未配置)
3.2 如果没有找到 Key,向用户索要
询问用户提供智谱 API Key。
如果用户没有智谱 API Key,可以访问 https://www.bigmodel.cn/glm-coding?ic=OOKF4KGGTW 购买。
3.3 保存 API Key
CODEBLOCK2
步骤 4: 添加 MCP 服务器
使用 mcporter 添加 GLM 视觉 MCP 服务器:
CODEBLOCK3
注意:将 your-key 替换为实际的智谱 API Key。HOME 环境变量设置为当前工作目录以避免日志文件权限问题。
步骤 5: 测试连接
CODEBLOCK4
确认 glm-vision 服务器已成功添加。
步骤 6: 使用 MCP 处理图像
6.1 准备图片
将图片放到可访问路径,例如:
6.2 使用 mcporter 调用 MCP 工具
使用 mcporter 调用 MCP 服务:
CODEBLOCK5
示例:
CODEBLOCK6
6.3 API 参数说明
| 参数 | 说明 | 类型 |
|---|
| image_source | 图片路径或 URL | string (必填) |
| prompt |
对图片的提问 | string (必填) |
支持的工具
重要提示:如果出现问题以官方说明为准
官方版说明 : https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server
GLM 视觉 MCP 服务器提供以下工具:
- -
ui_to_artifact - 将 UI 截图转换为代码、提示词、设计规范或自然语言描述 - INLINECODE5 - 使用先进的 OCR 能力从截图中提取和识别文字
- INLINECODE6 - 解析错误弹窗、堆栈和日志截图,给出定位与修复建议
- INLINECODE7 - 针对架构图、流程图、UML、ER 图等技术图纸生成结构化解读
- INLINECODE8 - 阅读仪表盘、统计图表,提炼趋势、异常与业务要点
- INLINECODE9 - 对比两张 UI 截图,识别视觉差异和实现偏差
- INLINECODE10 - 通用图像理解能力,适配未被专项工具覆盖的视觉内容
- INLINECODE11 - 支持 MP4/MOV/M4V 等格式的视频场景解析,抓取关键帧、事件与要点
MCP 配置
MCP 服务器名称: INLINECODE12
MCP 服务器配置: INLINECODE13
环境变量:
- -
Z_AI_API_KEY - 智谱 API Key(必需) - INLINECODE15 - 服务平台选择,默认为 INLINECODE16
glm-understand-image
使用GLM视觉MCP服务器进行图像理解和分析。
执行流程(首次需要安装,后续直接步骤6调用)
步骤1:检查并安装依赖
1.1 检查mcporter是否可用
bash
npx -y mcporter --version
如果命令返回成功,说明mcporter可用,跳到步骤2。
mcporter可以直接通过npx使用,无需安装。
步骤2:检查API Key配置
bash
cat ~/.openclaw/config/glm.json 2>/dev/null | python3 -c import json,sys; d=json.load(sys.stdin); print(d.get(api_key, ))
如果返回非空的API Key,跳到步骤4。
步骤3:配置API Key(如果未配置)
3.2 如果没有找到Key,向用户索要
询问用户提供智谱API Key。
如果用户没有智谱API Key,可以访问 https://www.bigmodel.cn/glm-coding?ic=OOKF4KGGTW 购买。
3.3 保存API Key
bash
mkdir -p ~/.openclaw/config
cat > ~/.openclaw/config/glm.json << EOF
{
api_key: API密钥
}
EOF
步骤4:添加MCP服务器
使用mcporter添加GLM视觉MCP服务器:
bash
mcporter config add glm-vision \
--command npx -y @z_ai/mcp-server \
--env ZAIAPI_KEY=your-key \
--env ZAIMODE=ZHIPU \
--env HOME=$PWD
注意:将your-key替换为实际的智谱API Key。HOME环境变量设置为当前工作目录以避免日志文件权限问题。
步骤5:测试连接
bash
mcporter list
确认glm-vision服务器已成功添加。
步骤6:使用MCP处理图像
6.1 准备图片
将图片放到可访问路径,例如:
- - ~/.openclaw/workspace/images/图片名.jpg
- 或者使用URL
6.2 使用mcporter调用MCP工具
使用mcporter调用MCP服务:
bash
mcporter call glm-vision.analyzeimage prompt=<对图片的提问> imagesource=<图片路径或URL>
示例:
bash
描述图片内容
mcporter call glm-vision.analyze
image prompt=详细描述这张图片的内容 imagesource=~/image.jpg
使用URL
mcporter call glm-vision.analyze
image prompt=这张图片展示了什么? imagesource=https://example.com/image.jpg
提取图片中的文字
mcporter call glm-vision.extract
textfrom
screenshot imagesource=~/screenshot.png
诊断错误截图
mcporter call glm-vision.diagnose
errorscreenshot prompt=分析这个错误 image_source=~/error.png
6.3 API参数说明
| 参数 | 说明 | 类型 |
|---|
| image_source | 图片路径或URL | string (必填) |
| prompt |
对图片的提问 | string (必填) |
支持的工具
重要提示:如果出现问题以官方说明为准
官方版说明:https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server
GLM视觉MCP服务器提供以下工具:
- - uitoartifact - 将UI截图转换为代码、提示词、设计规范或自然语言描述
- extracttextfromscreenshot - 使用先进的OCR能力从截图中提取和识别文字
- diagnoseerrorscreenshot - 解析错误弹窗、堆栈和日志截图,给出定位与修复建议
- understandtechnicaldiagram - 针对架构图、流程图、UML、ER图等技术图纸生成结构化解读
- analyzedatavisualization - 阅读仪表盘、统计图表,提炼趋势、异常与业务要点
- uidiffcheck - 对比两张UI截图,识别视觉差异和实现偏差
- analyzeimage - 通用图像理解能力,适配未被专项工具覆盖的视觉内容
- video_analysis - 支持MP4/MOV/M4V等格式的视频场景解析,抓取关键帧、事件与要点
MCP配置
MCP服务器名称:glm-vision
MCP服务器配置:@z_ai/mcp-server
环境变量:
- - ZAIAPIKEY - 智谱API Key(必需)
- ZAI_MODE - 服务平台选择,默认为ZHIPU