返回顶部
d

dmxapi-image-recognitionDMX图像识别

使用 DMXAPI 平台进行图像识别和理解。支持 Gemini 等多模态视觉模型。可进行图片描述、OCR文字识别、图表数据分析、物体检测、场景理解等任务。当用户需要识别图片内容、提取图片文字、分析图表、理解图像时使用此技能。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
103
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

dmxapi-image-recognition

技能名称: dmxapi-image-recognition
详细描述:

DMXAPI 图像识别/理解

通过 DMXAPI 统一 CLI 调用多种 AI 视觉模型进行图像识别和理解。

前置准备

  1. 1. 安装 CLI 工具(需要 Node.js 20+):
bash npm install -g dmxapi-cli
  1. 2. 配置 API Key(从 DMXAPI 控制台 获取):
bash dmxapi config set apiKey sk-your-api-key

命令格式

bash
dmxapi chat -m 提示词 --image

选项

选项说明示例
-m, --model <model>视觉模型名称(默认 gpt-5-mini)-m gemini-3-flash-preview
--image <path>
图片路径(本地文件或 URL) | --image ./photo.png | | -s, --system | 系统消息(定义识别任务) | -s 你是一个OCR专家 | | -t, --temperature | 采样温度 0-2 | -t 0.3 | | --max-tokens | 最大输出 token 数 | --max-tokens 2000 |

支持的图片格式

  • - PNG (.png)
  • JPEG (.jpg, .jpeg)
  • WebP (.webp)
  • GIF (.gif)

图片输入方式

  1. 1. 本地文件路径:自动转换为 base64 data URL
bash dmxapi chat 描述这张图片 --image ./photo.jpg
  1. 2. 远程 URL:直接使用网络图片
bash dmxapi chat 分析这张图片 --image https://example.com/image.png

推荐模型

模型特点适用场景
gpt-5-mini默认模型,速度快,成本低通用图像识别
gemini-3-flash-preview
Google 最新视觉模型 | 复杂图像分析、场景理解 |

使用步骤

  1. 1. 确定用户的图像识别需求类型(描述、OCR、分析等)
  2. 选择合适的视觉模型
  3. 根据任务类型编写精确的提示词
  4. 构建 dmxapi chat 命令并执行
  5. 将识别结果返回给用户

示例

图片描述

bash

基本描述


dmxapi chat 请详细描述这张图片的内容 --image ./landscape.jpg

简洁描述

dmxapi chat 用一句话描述这张图片 --image ./photo.png

OCR 文字识别

bash

通用 OCR


dmxapi chat 识别图片中的所有文字,按原始排版输出 --image ./document.png

手写文字识别

dmxapi chat 识别图片中的手写文字 --image ./handwriting.jpg

表格识别

dmxapi chat 识别图片中的表格,以 Markdown 表格格式输出 --image ./table.png

图表数据分析

bash

图表解读


dmxapi chat 分析这张图表,提取关键数据点并总结趋势 --image ./chart.png

数据提取

dmxapi chat 提取图中柱状图的所有数值,以 JSON 格式输出 --image ./bar-chart.jpg

物体检测与识别

bash

物体检测


dmxapi chat 识别图片中的所有物体,列出它们的名称和位置 --image ./room.jpg

动植物识别

dmxapi chat 识别图片中的植物种类 --image ./flower.png

场景理解

bash

场景分析


dmxapi chat 分析这张图片的场景,描述环境、氛围和可能的用途 --image ./scene.jpg

安全检查

dmxapi chat 检查这张图片是否存在安全隐患 --image ./workplace.png

文档理解

bash

文档摘要


dmxapi chat 总结这张文档图片的主要内容 --image ./contract.png

信息提取

dmxapi chat 从身份证图片中提取姓名和身份证号 --image ./id-card.jpg

代码/截图识别

bash

代码识别


dmxapi chat 识别图片中的代码并输出为可复制的文本格式 --image ./code-screenshot.png

UI 分析

dmxapi chat 分析这个 UI 界面的设计元素和布局 --image ./ui-screenshot.jpg

使用 System 消息增强效果

通过 -s 参数设置 system 消息,可以让模型专注于特定任务:

bash

OCR 专家模式


dmxapi chat -s 你是一个专业的OCR识别助手,只输出识别到的文字内容,不要添加任何解释 识别文字 --image ./doc.png

数据分析专家模式

dmxapi chat -s 你是一个数据分析专家,擅长从图表中提取数据 分析图表 --image ./chart.png

多语言识别

dmxapi chat -s 识别图片中的文字,如果是英文请翻译成中文 识别并翻译 --image ./english-doc.png

注意事项

  • - 本地图片文件会自动转换为 base64 data URL 上传
  • 远程 URL 图片直接传递给 API 处理
  • 对于复杂识别任务,建议使用 gemini-3-flash-preview
  • 如果识别结果不满意,可以调整提示词或降低 temperature 参数获得更确定的输出

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 dmxapi-image-recognition-1775977389 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 dmxapi-image-recognition-1775977389 技能

通过命令行安装

skillhub install dmxapi-image-recognition-1775977389

下载

⬇ 下载 dmxapi-image-recognition v1.0.0(免费)

文件大小: 2.95 KB | 发布时间: 2026-4-13 10:03

v1.0.0 最新 2026-4-13 10:03
- 首次发布 dmxapi-image-recognition 技能,支持多种图像识别与理解任务。
- 支持图片描述、OCR文字识别、图表分析、物体检测、场景理解等多种任务类型。
- 兼容多种图片输入格式(PNG、JPEG、WebP、GIF),支持本地文件与远程 URL。
- 命令行使用 dmxapi-cli,灵活选择模型与参数,提升视觉任务效果。
- 提供丰富的使用示例,涵盖常见图片识别与数据提取场景。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部