场景	示例
图片描述	"这张图片是什么内容？"
场景分析

China Vision - 多模态图片理解

使用AI视觉语言模型分析和理解图片内容。

与 china-doc-ocr 的区别

功能	china-doc-ocr	china-vision
文档识别	✅ 优秀	⚠️ 一般
表格提取

✅ 优秀 | ⚠️ 一般 | | 发票/证件 | ✅ 优秀 | ❌ 不适合 | | 图片描述 | ❌ 不支持 | ✅ 优秀 | | 场景分析 | ❌ 不支持 | ✅ 优秀 | | 图表解读 | ⚠️ 一般 | ✅ 优秀 | | 商品识别 | ❌ 不支持 | ✅ 优秀 |

适用场景

场景	示例
图片描述	这张图片是什么内容？
场景分析

触发条件

- 这是什么图片 / What is this image?
描述这张图片 / Describe this image
分析这张照片 / Analyze this photo
这个图表说明什么 / What does this chart show?
这是什么菜 / What food is this?
这是什么品牌 / What brand is this?
china-vision

模型说明

使用 Qwen2.5-VL-72B-Instruct 视觉语言模型：

- ✅ 强大的图片理解能力
✅ 支持中英文对话
⚠️ 收费模型（按token计费）
✅ 国内直连
✅ 效果优秀

注意：这是付费模型，请注意token消耗

步骤 1：识别请求类型

用户输入图片 → 判断请求类型：

描述这张图片 → 详细描述模式
这是什么 → 识别模式
分析... → 分析模式
对比... → 对比模式（多张图）
未指定 → 默认描述模式

步骤 2：图片分析

单张图片分析

bash
IMAGE_PATH=/path/to/image.jpg

编码为 base64

BASE64_DATA=$(python3 -c import base64 with open($IMAGE_PATH, rb) as f: print(base64.b64encode(f.read()).decode(utf-8)) )

判断格式

EXT=${IMAGE_PATH##*.} case $EXT in jpg|jpeg) MIME=image/jpeg ;; png) MIME=image/png ;; webp) MIME=image/webp ;; *) MIME=image/jpeg ;; esac

用户请求类型

USER_REQUEST=请详细描述这张图片的内容

调用 Qwen2.5-VL

curl -s -X POST https://api.siliconflow.cn/v1/chat/completions \ -H Authorization: Bearer $SILICONFLOWAPIKEY \ -H Content-Type: application/json \ -d { \model\: \Qwen/Qwen2.5-VL-72B-Instruct\, \messages\: [ { \role\: \user\, \content\: [ { \type\: \image_url\, \image_url\: { \url\: \data:${MIME};base64,${BASE64_DATA}\ } }, { \type\: \text\, \text\: \$USER_REQUEST\ } ] } ], \max_tokens\: 2048 } | python3 -c import sys, json data = json.load(sys.stdin) print(data[choices][0][message][content])

图片URL分析

bash
IMAGE_URL=https://example.com/photo.jpg

curl -s -X POST https://api.siliconflow.cn/v1/chat/completions \
-H Authorization: Bearer $SILICONFLOWAPIKEY \
-H Content-Type: application/json \
-d {
\model\: \Qwen/Qwen2.5-VL-72B-Instruct\,
\messages\: [
{
\role\: \user\,
\content\: [
{
\type\: \image_url\,
\image_url\: {
\url\: \$IMAGE_URL\
}
},
{
\type\: \text\,
\text\: \请详细描述这张图片\
}
]
}
],
\max_tokens\: 2048
} | python3 -c
import sys, json
data = json.load(sys.stdin)
print(data[choices][0][message][content])

提示词模板

图片描述

请详细描述这张图片的内容，包括：

1. 主要对象/人物
场景/背景
颜色/光线
构图/布局
整体氛围

场景分析

请分析这张照片的：

1. 拍摄场景
时间/天气
地点特征
主体行为
摄影技巧

图表解读

请解读这张图表：

1. 图表类型
横轴/纵轴含义
主要数据趋势
关键数据点
结论/洞察

商品识别

请识别这张图片中的商品：

1. 商品类型
品牌（如果可见）
产品特征
用途/功能
参考价格（如果知道）

食物识别

请识别这张食物图片：

1. 菜品名称
菜系（中餐/西餐/日料等）
主要食材
可能的口味
制作方法简述

输出格式

图片描述

┌──────────────────────────────────────────────┐
│ 👁️ 图片分析结果 │
└──────────────────────────────────────────────┘

📸 图片描述
这是一张在城市街道拍摄的夜景照片。画面中可以看到
灯火通明的商业区，高楼林立，车流穿梭...

🎨 画面构成
├─ 主体: 城市街道夜景
├─ 背景: 高层建筑群
├─ 光线: 人工照明，暖色调
└─ 构图: 仰拍视角

💡 分析
这张照片展现了现代都市的繁华夜生活，拍摄者
选择了仰拍角度，突出了建筑的高度感...

与 china-doc-ocr 的协作

用户上传发票照片
↓
优先尝试 china-doc-ocr (OCR模型)
↓
如果识别效果不好
↓
降级到 china-vision (视觉语言模型)

备注

- 使用 Qwen2.5-VL-72B-Instruct 视觉语言模型
需要 SILICONFLOWAPIKEY
适合图片理解和分析，不适合文档OCR
文档OCR请使用 china-doc-ocr

china-vision中国视觉

china-vision

China Vision - 多模态图片理解

与 china-doc-ocr 的区别

适用场景

Trigger Conditions

模型说明

Step 1: 识别请求类型

Step 2: 图片分析

单张图片分析

图片URL分析

Prompt 模板

图片描述

场景分析

图表解读

商品识别

食物识别

输出格式

图片描述

与 china-doc-ocr 的协作

Notes

China Vision - 多模态图片理解

与 china-doc-ocr 的区别

适用场景

触发条件

模型说明

步骤 1：识别请求类型

步骤 2：图片分析

单张图片分析

编码为 base64

判断格式

用户请求类型

调用 Qwen2.5-VL

图片URL分析

提示词模板

图片描述

场景分析

图表解读

商品识别

食物识别

输出格式

图片描述

与 china-doc-ocr 的协作

备注

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement