Vision Analysis
Analyze images using the MiniMax MiniMax_understand_image MCP tool available in the MiniMax Token Plan.
Prerequisites
- - MiniMax Token Plan subscription with valid INLINECODE1
- MiniMax MCP configured (
MiniMax_understand_image tool available)
If MCP tool is not configured
Step 1: The agent should fetch setup instructions from:
https://platform.minimaxi.com/docs/token-plan/mcp-guide
Step 2: Detect the user's environment (OpenCode, Cursor, Claude Code, etc.) and output the exact commands needed. Common examples:
OpenCode — add to ~/.config/opencode/opencode.json or package.json:
CODEBLOCK0
Claude Code:
CODEBLOCK1
Cursor — add to MCP settings:
CODEBLOCK2
Step 3: After configuration, tell the user to restart their app and verify with /mcp.
Important: If the user does not have a MiniMax Token Plan subscription, inform them that the understand_image tool requires one — it cannot be used with free or other tier API keys.
Analysis Modes
| Mode | When to use | Prompt strategy |
|---|
| INLINECODE7 | General image understanding | Ask for detailed description |
| INLINECODE8 |
Text extraction from screenshots, documents | Ask to extract all text verbatim |
|
ui-review | UI mockups, wireframes, design files | Ask for design critique with suggestions |
|
chart-data | Charts, graphs, data visualizations | Ask to extract data points and trends |
|
object-detect | Identify objects, people, activities | Ask to list and locate all elements |
Workflow
Step 1: Auto-detect image
The skill triggers automatically when a message contains an image file path or URL with extensions:
.jpg, .jpeg, .png, .gif, .webp, .bmp, INLINECODE18
Extract the image path from the message.
Step 2: Select analysis mode and call MCP tool
Use the MiniMax_understand_image tool with a mode-specific prompt:
describe:
CODEBLOCK3
ocr:
CODEBLOCK4
ui-review:
CODEBLOCK5
chart-data:
CODEBLOCK6
object-detect:
CODEBLOCK7
Step 3: Present results
Return the analysis clearly. For describe, use readable prose. For ocr, preserve structure. For ui-review, use a structured critique format.
Output Format Example
For describe mode:
CODEBLOCK8
For ocr mode:
CODEBLOCK9
For ui-review mode:
CODEBLOCK10
Notes
- - Images up to 20MB supported (JPEG, PNG, GIF, WebP)
- Local file paths work if MiniMax MCP is configured with file access
- The
MiniMax_understand_image tool is provided by the minimax-coding-plan-mcp package
视觉分析
使用MiniMax Token计划中可用的MiniMax MiniMaxunderstandimage MCP工具分析图像。
前提条件
- - 拥有有效MINIMAXAPIKEY的MiniMax Token计划订阅
- 已配置MiniMax MCP(MiniMaxunderstandimage工具可用)
如果MCP工具未配置
步骤1: 代理应从以下地址获取设置说明:
https://platform.minimaxi.com/docs/token-plan/mcp-guide
步骤2: 检测用户环境(OpenCode、Cursor、Claude Code等)并输出所需的确切命令。常见示例:
OpenCode — 添加到~/.config/opencode/opencode.json或package.json:
json
{
mcp: {
MiniMax: {
type: local,
command: [uvx, minimax-coding-plan-mcp, -y],
environment: {
MINIMAXAPIKEY: YOURTOKENPLAN_KEY,
MINIMAXAPIHOST: https://api.minimaxi.com
},
enabled: true
}
}
}
Claude Code:
bash
claude mcp add -s user MiniMax --env MINIMAXAPIKEY=your-key --env MINIMAXAPIHOST=https://api.minimaxi.com -- uvx minimax-coding-plan-mcp -y
Cursor — 添加到MCP设置:
json
{
mcpServers: {
MiniMax: {
command: uvx,
args: [minimax-coding-plan-mcp],
env: {
MINIMAXAPIKEY: your-key,
MINIMAXAPIHOST: https://api.minimaxi.com
}
}
}
}
步骤3: 配置完成后,告知用户重启其应用并使用/mcp进行验证。
重要提示: 如果用户没有MiniMax Token计划订阅,请告知他们understand_image工具需要该订阅——无法使用免费或其他级别的API密钥。
分析模式
| 模式 | 使用场景 | 提示策略 |
|---|
| describe | 通用图像理解 | 要求详细描述 |
| ocr |
从截图、文档中提取文本 | 要求逐字提取所有文本 |
| ui-review | UI模型、线框图、设计文件 | 要求提供设计评审及建议 |
| chart-data | 图表、图形、数据可视化 | 要求提取数据点和趋势 |
| object-detect | 识别物体、人物、活动 | 要求列出并定位所有元素 |
工作流程
步骤1:自动检测图像
当消息包含以下扩展名的图像文件路径或URL时,技能自动触发:
.jpg、.jpeg、.png、.gif、.webp、.bmp、.svg
从消息中提取图像路径。
步骤2:选择分析模式并调用MCP工具
使用MiniMaxunderstandimage工具,配合特定模式的提示:
describe:
请详细描述此图像。包括:主要主体、场景/背景、
颜色/风格、任何可见文本、显著物体以及整体构图。
ocr:
逐字提取此图像中所有可见文本。保留结构和格式
(标题、列表、列)。如果未找到文本,请说明。
ui-review:
你是一名UI/UX设计评审员。分析此界面模型或设计。提供:
(1) 优点——哪些地方做得好,(2) 问题——可用性或设计问题,
(3) 具体、可操作的改进建议。请保持建设性和详细性。
chart-data:
从此图表或图形中提取所有数据。列出:图表标题、轴标签、所有
数据点/系列及其数值(如可读),以及趋势的简要总结。
object-detect:
列出你能识别的所有不同物体、人物和活动。对每个元素,
描述其是什么以及其在图像中的大致位置。
步骤3:呈现结果
清晰返回分析结果。对于describe模式,使用可读的散文。对于ocr模式,保留结构。对于ui-review模式,使用结构化的评审格式。
输出格式示例
对于describe模式:
图像描述
[图像内容的详细描述...]
对于ocr模式:
提取的文本
[从图像中保留的文本结构]
对于ui-review模式:
UI设计评审
优点
问题
建议
注意事项
- - 支持最大20MB的图像(JPEG、PNG、GIF、WebP)
- 如果MiniMax MCP配置了文件访问权限,本地文件路径也可使用
- MiniMaxunderstandimage工具由minimax-coding-plan-mcp包提供