返回顶部
v

vision-skill视觉技能

Use this skill for computer vision tasks including image recognition (OCR, object detection) and image generation (text-to-image, image-to-image). Supports asynchronous task execution with Tencent COS storage and Doubao AI models.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
345
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

vision-skill

视觉技能

概述

该技能提供使用豆包AI模型进行视觉识别和图像生成的能力。它通过腾讯云COS处理图像存储,并以异步方式执行任务。

能力

1. 视觉识别

分析图像以描述内容、提取文本(OCR)或回答关于图像的问题。
  • - 输入:本地图像路径或URL,可选提示词。
  • 流程:将本地图像上传至COS,然后调用豆包视觉API。
  • 输出:文本描述或答案。

2. 图像生成

根据文本提示生成图像,可选择使用参考图像。
  • - 文生图:根据文本描述生成图像。
  • 图生图:基于参考图像和文本提示生成图像。
  • 序列生成:生成一系列连贯的图像(如故事板)。

使用方法

该技能通过CLI脚本scripts/vision_cli.py暴露。

前置条件

需在.env文件或系统环境中设置以下环境变量:
  • - COSSECRETID、COSSECRETKEY、COSREGION、COSBUCKETNAME
  • DOUBAOAPIKEY、DOUBAOVISIONMODEL、DOUBAOIMAGE_MODEL

命令

视觉识别

bash

基本用法

python3 scripts/visioncli.py recognize path> --prompt 描述这张图片

使用预设格式(--format)

可用格式:invoice、contract、form、slide、whiteboard、table、json、keyvalue、markdownnote、qa_pairs、code、ocr、analysis

python3 scripts/vision_cli.py recognize ./invoice.jpg --format json python3 scripts/vision_cli.py recognize ./screenshot.png --format code

批量识别

python3 scripts/visioncli.py recognize ./a.jpg ./b.jpg ./c.jpg --format table --wait --output ./batchresult.json

质量模式和重试

python3 scripts/vision_cli.py recognize ./contract.png --format contract --quality high --retry 3 --wait

等待结果并保存到文件

python3 scripts/vision_cli.py recognize ./doc.jpg --format ocr --wait --output ./result.txt

图像生成

bash

文生图,使用风格预设(--style)

可用风格:ppt、businessflat、cartoon、techisometric、hand_drawn、icon、photo、anime、sketch

python3 scripts/vision_cli.py generate 赛博朋克城市 --style anime

图生图

python3 scripts/visioncli.py generate 添加雪景效果 --ref path>

序列生成

python3 scripts/vision_cli.py generate 关于一只猫的故事 --seq 4 --style cartoon

等待结果并保存图像

python3 scripts/vision_cli.py generate 相机应用图标 --style icon --wait --output ./icon.png

质量模式和重试

python3 scripts/visioncli.py generate SaaS架构示意图 --style techisometric --quality high --retry 3 --wait

检查状态

bash python3 scripts/visioncli.py status id>

或保存已完成的结果

python3 scripts/visioncli.py status id> --output ./final_result.png

任务管理

默认情况下,所有任务均以异步方式执行。
  • - 使用--wait标志可阻塞等待直至完成(适用于Agent工作流)。
  • 使用--output标志可自动保存文本或下载图像。
  • 任务数据存储在.tasks/目录中。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 vision-skill-1776119419 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 vision-skill-1776119419 技能

通过命令行安装

skillhub install vision-skill-1776119419

下载

⬇ 下载 vision-skill v1.0.0(免费)

文件大小: 20.72 KB | 发布时间: 2026-4-14 10:02

v1.0.0 最新 2026-4-14 10:02
Initial release of vision-skill, providing end-to-end computer vision and image generation capabilities.

- Supports image recognition (OCR, object detection, content description, Q&A) and flexible image generation (text-to-image, image-to-image, sequential images).
- Integrates with Tencent Cloud COS for image storage and uses Doubao AI models for processing.
- CLI interface via `vision_cli.py` with options for batch tasks, style/format presets, quality modes, and retries.
- All tasks execute asynchronously, with options to wait for completion and save outputs.
- Comprehensive environment variable setup and task management through a local `.tasks/` directory.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large