Vision Skill
Overview
This skill provides capabilities for visual recognition and image generation using Doubao AI models. It handles image storage via Tencent Cloud COS and executes tasks asynchronously.
Capabilities
1. Vision Recognition
Analyze images to describe content, extract text (OCR), or answer questions about the image.
- - Input: Local image path or URL, optional prompt.
- Process: Uploads local images to COS, then calls Doubao Vision API.
- Output: Text description or answer.
2. Image Generation
Generate images from text prompts, optionally using reference images.
- - Text-to-Image: Generate images from a text description.
- Image-to-Image: Generate images based on a reference image and text prompt.
- Sequential Generation: Generate a series of consistent images (e.g., storyboards).
Usage
The skill is exposed via a CLI script scripts/vision_cli.py.
Prerequisites
Environment variables must be set in
.env or the system environment:
- -
COS_SECRET_ID, COS_SECRET_KEY, COS_REGION, INLINECODE5 - INLINECODE6 ,
DOUBAO_VISION_MODEL, INLINECODE8
Commands
Vision Recognition
CODEBLOCK0
Image Generation
CODEBLOCK1
Check Status
CODEBLOCK2
Task Management
All tasks are executed asynchronously by default.
- - Use
--wait flag to block until completion (useful for Agent workflow). - Use
--output flag to automatically save text or download images. - Task data is stored in
.tasks/ directory.
视觉技能
概述
该技能提供使用豆包AI模型进行视觉识别和图像生成的能力。它通过腾讯云COS处理图像存储,并以异步方式执行任务。
能力
1. 视觉识别
分析图像以描述内容、提取文本(OCR)或回答关于图像的问题。
- - 输入:本地图像路径或URL,可选提示词。
- 流程:将本地图像上传至COS,然后调用豆包视觉API。
- 输出:文本描述或答案。
2. 图像生成
根据文本提示生成图像,可选择使用参考图像。
- - 文生图:根据文本描述生成图像。
- 图生图:基于参考图像和文本提示生成图像。
- 序列生成:生成一系列连贯的图像(如故事板)。
使用方法
该技能通过CLI脚本scripts/vision_cli.py暴露。
前置条件
需在.env文件或系统环境中设置以下环境变量:
- - COSSECRETID、COSSECRETKEY、COSREGION、COSBUCKETNAME
- DOUBAOAPIKEY、DOUBAOVISIONMODEL、DOUBAOIMAGE_MODEL
命令
视觉识别
bash
基本用法
python3 scripts/vision
cli.py recognize path> --prompt 描述这张图片
使用预设格式(--format)
可用格式:invoice、contract、form、slide、whiteboard、table、json、keyvalue、markdownnote、qa_pairs、code、ocr、analysis
python3 scripts/vision_cli.py recognize ./invoice.jpg --format json
python3 scripts/vision_cli.py recognize ./screenshot.png --format code
批量识别
python3 scripts/visioncli.py recognize ./a.jpg ./b.jpg ./c.jpg --format table --wait --output ./batchresult.json
质量模式和重试
python3 scripts/vision_cli.py recognize ./contract.png --format contract --quality high --retry 3 --wait
等待结果并保存到文件
python3 scripts/vision_cli.py recognize ./doc.jpg --format ocr --wait --output ./result.txt
图像生成
bash
文生图,使用风格预设(--style)
可用风格:ppt、businessflat、cartoon、techisometric、hand_drawn、icon、photo、anime、sketch
python3 scripts/vision_cli.py generate 赛博朋克城市 --style anime
图生图
python3 scripts/visioncli.py generate 添加雪景效果 --ref path>
序列生成
python3 scripts/vision_cli.py generate 关于一只猫的故事 --seq 4 --style cartoon
等待结果并保存图像
python3 scripts/vision_cli.py generate 相机应用图标 --style icon --wait --output ./icon.png
质量模式和重试
python3 scripts/visioncli.py generate SaaS架构示意图 --style techisometric --quality high --retry 3 --wait
检查状态
bash
python3 scripts/visioncli.py status id>
或保存已完成的结果
python3 scripts/visioncli.py status id> --output ./final_result.png
任务管理
默认情况下,所有任务均以异步方式执行。
- - 使用--wait标志可阻塞等待直至完成(适用于Agent工作流)。
- 使用--output标志可自动保存文本或下载图像。
- 任务数据存储在.tasks/目录中。