Vision Skill

Overview

This skill provides capabilities for visual recognition and image generation using Doubao AI models. It handles image storage via Tencent Cloud COS and executes tasks asynchronously.

Capabilities

1. Vision Recognition

Analyze images to describe content, extract text (OCR), or answer questions about the image.

- Input: Local image path or URL, optional prompt.
Process: Uploads local images to COS, then calls Doubao Vision API.
Output: Text description or answer.

2. Image Generation

Generate images from text prompts, optionally using reference images.

- Text-to-Image: Generate images from a text description.
Image-to-Image: Generate images based on a reference image and text prompt.
Sequential Generation: Generate a series of consistent images (e.g., storyboards).

Usage

The skill is exposed via a CLI script scripts/vision_cli.py.

Prerequisites

Environment variables must be set in .env or the system environment:

- COS_SECRET_ID, COS_SECRET_KEY, COS_REGION, INLINECODE5
INLINECODE6, DOUBAO_VISION_MODEL, INLINECODE8

Commands

Vision Recognition

CODEBLOCK0

Image Generation

CODEBLOCK1

Check Status

CODEBLOCK2

Task Management

All tasks are executed asynchronously by default.

- Use --wait flag to block until completion (useful for Agent workflow).
Use --output flag to automatically save text or download images.
Task data is stored in .tasks/ directory.

视觉技能

概述

该技能提供使用豆包AI模型进行视觉识别和图像生成的能力。它通过腾讯云COS处理图像存储，并以异步方式执行任务。

能力

1. 视觉识别

分析图像以描述内容、提取文本（OCR）或回答关于图像的问题。

- 输入：本地图像路径或URL，可选提示词。
流程：将本地图像上传至COS，然后调用豆包视觉API。
输出：文本描述或答案。

2. 图像生成

根据文本提示生成图像，可选择使用参考图像。

- 文生图：根据文本描述生成图像。
图生图：基于参考图像和文本提示生成图像。
序列生成：生成一系列连贯的图像（如故事板）。

使用方法

该技能通过CLI脚本scripts/vision_cli.py暴露。

前置条件

需在.env文件或系统环境中设置以下环境变量：

- COSSECRETID、COSSECRETKEY、COSREGION、COSBUCKETNAME
DOUBAOAPIKEY、DOUBAOVISIONMODEL、DOUBAOIMAGE_MODEL

命令

视觉识别

bash

基本用法

python3 scripts/visioncli.py recognize path> --prompt 描述这张图片
使用预设格式（--format）

可用格式：invoice、contract、form、slide、whiteboard、table、json、keyvalue、markdownnote、qa_pairs、code、ocr、analysis
python3 scripts/vision_cli.py recognize ./invoice.jpg --format json python3 scripts/vision_cli.py recognize ./screenshot.png --format code
批量识别
python3 scripts/visioncli.py recognize ./a.jpg ./b.jpg ./c.jpg --format table --wait --output ./batchresult.json
质量模式和重试
python3 scripts/vision_cli.py recognize ./contract.png --format contract --quality high --retry 3 --wait
等待结果并保存到文件
python3 scripts/vision_cli.py recognize ./doc.jpg --format ocr --wait --output ./result.txt
图像生成
bash
文生图，使用风格预设（--style）

可用风格：ppt、businessflat、cartoon、techisometric、hand_drawn、icon、photo、anime、sketch
python3 scripts/vision_cli.py generate 赛博朋克城市 --style anime
图生图
python3 scripts/visioncli.py generate 添加雪景效果 --ref path>
序列生成
python3 scripts/vision_cli.py generate 关于一只猫的故事 --seq 4 --style cartoon
等待结果并保存图像
python3 scripts/vision_cli.py generate 相机应用图标 --style icon --wait --output ./icon.png
质量模式和重试
python3 scripts/visioncli.py generate SaaS架构示意图 --style techisometric --quality high --retry 3 --wait
检查状态
bash python3 scripts/visioncli.py status id>
或保存已完成的结果
python3 scripts/visioncli.py status id> --output ./final_result.png
任务管理
默认情况下，所有任务均以异步方式执行。
- 使用--wait标志可阻塞等待直至完成（适用于Agent工作流）。
使用--output标志可自动保存文本或下载图像。
任务数据存储在.tasks/目录中。

vision-skill视觉技能

vision-skill

Vision Skill

Overview

Capabilities

1. Vision Recognition

2. Image Generation

Usage

Prerequisites

Commands

Vision Recognition

Image Generation

Check Status

Task Management

视觉技能

概述

能力

1. 视觉识别

2. 图像生成

使用方法

前置条件

命令

视觉识别

基本用法

使用预设格式（--format）

可用格式：invoice、contract、form、slide、whiteboard、table、json、keyvalue、markdownnote、qa_pairs、code、ocr、analysis

批量识别

质量模式和重试

等待结果并保存到文件

图像生成

文生图，使用风格预设（--style）

可用风格：ppt、businessflat、cartoon、techisometric、hand_drawn、icon、photo、anime、sketch

图生图

序列生成

等待结果并保存图像

质量模式和重试

检查状态

或保存已完成的结果

任务管理

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement