多模态图片理解工具。Use when user wants to analyze, describe, or understand images using AI vision models. Supports scene analysis, object recognition, chart interpretation, food identification, and detailed image descriptions. Uses Qwen2.5-VL-72B. 图片识别、图片分析、视觉理解。
使用AI视觉语言模型分析和理解图片内容。
| 功能 | china-doc-ocr | china-vision |
|---|---|---|
| 文档识别 | ✅ 优秀 | ⚠️ 一般 |
| 表格提取 |
| 场景 | 示例 |
|---|---|
| 图片描述 | 这张图片是什么内容? |
| 场景分析 |
使用 Qwen2.5-VL-72B-Instruct 视觉语言模型:
注意:这是付费模型,请注意token消耗
用户输入图片 → 判断请求类型:
描述这张图片 → 详细描述模式
这是什么 → 识别模式
分析... → 分析模式
对比... → 对比模式(多张图)
未指定 → 默认描述模式
bash
IMAGE_PATH=/path/to/image.jpg
bash
IMAGE_URL=https://example.com/photo.jpg
curl -s -X POST https://api.siliconflow.cn/v1/chat/completions \
-H Authorization: Bearer $SILICONFLOWAPIKEY \
-H Content-Type: application/json \
-d {
\model\: \Qwen/Qwen2.5-VL-72B-Instruct\,
\messages\: [
{
\role\: \user\,
\content\: [
{
\type\: \image_url\,
\image_url\: {
\url\: \$IMAGE_URL\
}
},
{
\type\: \text\,
\text\: \请详细描述这张图片\
}
]
}
],
\max_tokens\: 2048
} | python3 -c
import sys, json
data = json.load(sys.stdin)
print(data[choices][0][message][content])
请详细描述这张图片的内容,包括:
请分析这张照片的:
请解读这张图表:
请识别这张图片中的商品:
请识别这张食物图片:
┌──────────────────────────────────────────────┐
│ 👁️ 图片分析结果 │
└──────────────────────────────────────────────┘
📸 图片描述
这是一张在城市街道拍摄的夜景照片。画面中可以看到
灯火通明的商业区,高楼林立,车流穿梭...
🎨 画面构成
├─ 主体: 城市街道夜景
├─ 背景: 高层建筑群
├─ 光线: 人工照明,暖色调
└─ 构图: 仰拍视角
💡 分析
这张照片展现了现代都市的繁华夜生活,拍摄者
选择了仰拍角度,突出了建筑的高度感...
用户上传发票照片
↓
优先尝试 china-doc-ocr (OCR模型)
↓
如果识别效果不好
↓
降级到 china-vision (视觉语言模型)
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 china-vision-1776016701 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 china-vision-1776016701 技能
skillhub install china-vision-1776016701
文件大小: 3.92 KB | 发布时间: 2026-4-13 09:42