DMXAPI 图像识别/理解

通过 DMXAPI 统一 CLI 调用多种 AI 视觉模型进行图像识别和理解。

前置准备

1. 安装 CLI 工具（需要 Node.js 20+）：

CODEBLOCK0

2. 配置 API Key（从 DMXAPI 控制台获取）：

CODEBLOCK1

命令格式

CODEBLOCK2

选项

选项	说明	示例
INLINECODE0	视觉模型名称（默认 `gpt-5-mini`）	INLINECODE2
INLINECODE3

支持的图片格式

- PNG (.png)
JPEG (.jpg, .jpeg)
WebP (.webp)
GIF (.gif)

图片输入方式

1. 本地文件路径：自动转换为 base64 data URL

CODEBLOCK3

2. 远程 URL：直接使用网络图片

CODEBLOCK4

模型	特点	适用场景
INLINECODE16	默认模型，速度快，成本低	通用图像识别
INLINECODE17

使用步骤

1. 确定用户的图像识别需求类型（描述、OCR、分析等）
选择合适的视觉模型
根据任务类型编写精确的提示词
构建 dmxapi chat 命令并执行
将识别结果返回给用户

示例

图片描述

CODEBLOCK5

OCR 文字识别

CODEBLOCK6

图表数据分析

CODEBLOCK7

物体检测与识别

CODEBLOCK8

场景理解

CODEBLOCK9

文档理解

CODEBLOCK10

代码/截图识别

CODEBLOCK11

使用 System 消息增强效果

通过 -s 参数设置 system 消息，可以让模型专注于特定任务：

CODEBLOCK12

注意事项

- 本地图片文件会自动转换为 base64 data URL 上传
远程 URL 图片直接传递给 API 处理
对于复杂识别任务，建议使用 INLINECODE20
如果识别结果不满意，可以调整提示词或降低 temperature 参数获得更确定的输出

技能名称: dmxapi-image-recognition
详细描述:

DMXAPI 图像识别/理解

通过 DMXAPI 统一 CLI 调用多种 AI 视觉模型进行图像识别和理解。

前置准备

1. 安装 CLI 工具（需要 Node.js 20+）：

bash npm install -g dmxapi-cli

2. 配置 API Key（从 DMXAPI 控制台获取）：

bash dmxapi config set apiKey sk-your-api-key

命令格式

bash
dmxapi chat -m 提示词 --image

选项

选项	说明	示例
-m, --model <model>	视觉模型名称（默认 gpt-5-mini）	-m gemini-3-flash-preview
--image <path>

支持的图片格式

- PNG (.png)
JPEG (.jpg, .jpeg)
WebP (.webp)
GIF (.gif)

图片输入方式

1. 本地文件路径：自动转换为 base64 data URL

bash dmxapi chat 描述这张图片 --image ./photo.jpg

2. 远程 URL：直接使用网络图片

bash dmxapi chat 分析这张图片 --image https://example.com/image.png

模型	特点	适用场景
gpt-5-mini	默认模型，速度快，成本低	通用图像识别
gemini-3-flash-preview

使用步骤

1. 确定用户的图像识别需求类型（描述、OCR、分析等）
选择合适的视觉模型
根据任务类型编写精确的提示词
构建 dmxapi chat 命令并执行
将识别结果返回给用户

示例

图片描述

bash

基本描述

dmxapi chat 请详细描述这张图片的内容 --image ./landscape.jpg

简洁描述

dmxapi chat 用一句话描述这张图片 --image ./photo.png

OCR 文字识别

bash

通用 OCR

dmxapi chat 识别图片中的所有文字，按原始排版输出 --image ./document.png

手写文字识别

dmxapi chat 识别图片中的手写文字 --image ./handwriting.jpg

表格识别

dmxapi chat 识别图片中的表格，以 Markdown 表格格式输出 --image ./table.png

图表数据分析

bash

图表解读

dmxapi chat 分析这张图表，提取关键数据点并总结趋势 --image ./chart.png

数据提取

dmxapi chat 提取图中柱状图的所有数值，以 JSON 格式输出 --image ./bar-chart.jpg

物体检测与识别

bash

物体检测

dmxapi chat 识别图片中的所有物体，列出它们的名称和位置 --image ./room.jpg

动植物识别

dmxapi chat 识别图片中的植物种类 --image ./flower.png

场景理解

bash

场景分析

dmxapi chat 分析这张图片的场景，描述环境、氛围和可能的用途 --image ./scene.jpg

安全检查

dmxapi chat 检查这张图片是否存在安全隐患 --image ./workplace.png

文档理解

bash

文档摘要

dmxapi chat 总结这张文档图片的主要内容 --image ./contract.png

信息提取

dmxapi chat 从身份证图片中提取姓名和身份证号 --image ./id-card.jpg

代码/截图识别

bash

代码识别

dmxapi chat 识别图片中的代码并输出为可复制的文本格式 --image ./code-screenshot.png

UI 分析

dmxapi chat 分析这个 UI 界面的设计元素和布局 --image ./ui-screenshot.jpg

使用 System 消息增强效果

通过 -s 参数设置 system 消息，可以让模型专注于特定任务：

bash

OCR 专家模式

dmxapi chat -s 你是一个专业的OCR识别助手，只输出识别到的文字内容，不要添加任何解释识别文字 --image ./doc.png

数据分析专家模式

dmxapi chat -s 你是一个数据分析专家，擅长从图表中提取数据分析图表 --image ./chart.png

多语言识别

dmxapi chat -s 识别图片中的文字，如果是英文请翻译成中文识别并翻译 --image ./english-doc.png

注意事项

- 本地图片文件会自动转换为 base64 data URL 上传
远程 URL 图片直接传递给 API 处理
对于复杂识别任务，建议使用 gemini-3-flash-preview
如果识别结果不满意，可以调整提示词或降低 temperature 参数获得更确定的输出

dmxapi-image-recognitionDMX图像识别

dmxapi-image-recognition

DMXAPI 图像识别/理解

前置准备

命令格式

选项

支持的图片格式

图片输入方式

推荐模型

使用步骤

示例

图片描述

OCR 文字识别

图表数据分析

物体检测与识别

场景理解

文档理解

代码/截图识别

使用 System 消息增强效果

注意事项

DMXAPI 图像识别/理解

前置准备

命令格式

选项

支持的图片格式

图片输入方式

推荐模型

使用步骤

示例

图片描述

基本描述

简洁描述

OCR 文字识别

通用 OCR

手写文字识别

表格识别

图表数据分析

图表解读

数据提取

物体检测与识别

物体检测

动植物识别

场景理解

场景分析

安全检查

文档理解

文档摘要

信息提取

代码/截图识别

代码识别

UI 分析

使用 System 消息增强效果

OCR 专家模式

数据分析专家模式

多语言识别

注意事项

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement