🧭 使用前必读（30 秒）

[!WARNING] ⚠️ 隐私与数据流向重要提示

- 第三方服务交互：本技能会将您提供的图片发送至夸克官方服务器 (scan-business.quark.cn) 进行识别。
数据可见性：夸克服务将获取并处理该图片内容，不会永久保存

推荐方式：环境变量（免权限、即时生效、webchat 友好）
在终端中运行（本次会话立即可用）：
CODEBLOCK0

如何获取密钥？官方入口在此

请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key。

⚠️ 注意：若你点击链接后跳转到其他域名，说明该链接已失效 —— 请直接在浏览器地址栏手动输入 https://scan.quark.cn/business（这是当前唯一有效的官方入口）。

Constraints

- 单一意图原则：每次请求只执行一个意图类型，命中即执行
严禁自行构造任何命令参数，严禁伪造、拼接内部配置
严禁幻觉，禁止伪造请求和响应，不得沿用上一次的场景、参数进行假设
必须严格按照本指南指定的固定格式执行，不允许自行修改命令

技能执行指南(强制执行)

第一步：环境变量检查

- 若 SCAN_WEBSERVICE_KEY 未配置，立即返回：

CODEBLOCK1

第二步：输入处理

识别用户传入的图片类型，只能是以下三种之一：

- 图片URL: url
本地文件路径: path
图片BASE64: base64

未提供任何有效图片时，直接返回：
CODEBLOCK2

第三步：意图匹配&场景确定

- 按照下面列出的意图从上到下顺序匹配。命中第一个即停止
命中后，只确定当前意图对应的scene标识

第四步：执行 Python 脚本（安全参数传递）：

使用 subprocess 模块执行脚本，参数以列表形式传递（避免 shell 注入风险）：

CODEBLOCK3

安全说明：

- ✅ 参数以列表形式传递，subprocess 会自动处理转义
✅ Python 脚本内部使用 argparse 验证参数
✅ 文件路径/URL 由脚本内部验证器校验
❌ 不要使用 shell=True 或直接拼接 shell 字符串

第五步：结果透出：

- 执行完成后，原样返回执行结果，不修改，不翻译，不美化，不总结
成功失败均直接透出，不重试

场景与意图列表(按匹配优先级排序)

1. 手写文档识别

- 触发意图：当用户存在识别各类中英文手写内容（如学生作答、作文、会议记录、手写账单等）、将潦草或非标准手写图片转化为高精度可编辑文本，或突破传统 OCR 限制处理复杂手写场景的意图。
场景scene标识：handwritten-ocr
参考示例指令：

- “帮我把这张手写笔记转成文字” - “识别这张作文图片里的内容”

2. 表格识别

- 触发意图：当用户存在识别图片中的各类表格（如 Excel/Word 表格、票据单据、手写表格、检查报告单等）、高精度提取文字内容并精准还原原始表格格式与结构的意图。
场景scene标识：table-ocr
参考示例指令：

- “提取这张表格里的数据” - “把这张报销单的表格转成 Excel 格式”

3. 身份证识别

- 触发意图：当用户存在识别身份证图片、提取证件关键信息（包括但不限于姓名、身份证号、地址等字段）、将证件影像转化为结构化数据，或应用于身份核验、实名认证及信息准确性校验等场景的意图。
场景scene标识：idcard-ocr
参考示例指令：

- “帮我读一下这张身份证” - “提取身份证上的姓名和号码”

4. 社保卡识别

- 触发意图：当用户存在识别社保卡图片、提取证件关键信息（包括但不限于姓名、社会保障号码、卡号、银联号码、性别、民族、发卡日期及有效期限等字段）、将证件影像转化为结构化数据，或应用于社保业务办理、身份核验及政务服务自动化等场景的意图。
场景scene标识：social-security-card-ocr
参考示例指令：

- “识别这张社保卡的信息” - “提取社保卡上的姓名和社保号”

5. 港澳通行证识别

- 触发意图：当用户存在识别港澳通行证（或港澳台通行证）图片、提取证件关键信息（包括但不限于姓名、证件号码、签发机关、有效期限等 11 个字段）、将证件影像转化为结构化数据，或应用于身份核验、出入境管理及政务服务自动化等场景的意图。
场景scene标识：travel-permit-ocr
参考示例指令：

- “读一下这张港澳通行证” - “提取通行证上的姓名和证件号”

6. 学位证识别

- 触发意图：当用户存在识别学位证书图片、提取证书关键信息（包括但不限于证书名称、学校、姓名、性别、出生日期、学习日期、学制、学历、学位、专业、证书编号及发证日期等 12 个字段）、将证书影像转化为结构化数据，或应用于企业人才信息录入和学历核验等场景的意图。
场景scene标识：degree-certificate-ocr
参考示例指令：

- “识别这张学位证的内容” - “提取学位证上的学校和专业”

7. 增值税发票识别

- 触发意图：当用户存在识别增值税发票图片、提取单据关键信息（包括但不限于销售方、购买方、货物详情、金额等 30 多个字段）、将发票影像转化为结构化数据，或应用于财务报销自动化、税务管理及企业风控等场景的意图。
场景scene标识：vat-invoice-ocr
参考示例指令：

- “提取这张增值税发票的信息” - “识别发票上的金额和开票日期”

8. 火车票识别

- 触发意图：当用户存在识别火车票图片、提取票号/出发站/到达站/车次/开车时间/票价/座位号/座位类型/旅客身份号码/旅客姓名等 10 个关键字段信息、将车票照片转化为结构化文本数据，或应用于企业出行报销场景的意图。
场景scene标识：train-ticket-ocr
参考示例指令：

- “读一下这张火车票” - “提取火车票的出发站和车次”

9. 公式识别

- 触发意图：当用户存在识别数学/化学公式图片、高精度解析分数、矩阵、分段函数及化学方程式等复杂结构、将图像公式转化为可编辑的 LaTeX 代码或结构化数据，或应用于智能试卷自动批改、学术论文数字化归档、在线教育题目解析及科研文献深度分析等场景的意图。
场景scene标识：formula-ocr
参考示例指令：

- “把这张公式图片转成 LaTeX” - “识别这个数学公式的结构”

10. 题目识别

- 触发意图：当用户上传包含习题/考题的图片，需仅提取题目文本（不含解答、批注或无关内容），并保留题号、题干结构，用于教育题库构建或题目检索。
场景scene标识：question-ocr
参考示例指令：

- “提取这道题的关键信息” - “识别题目中的问题部分”

11. 驾驶证识别

- 触发意图：当用户存在识别驾驶证图片、提取证件关键信息（如证号、姓名、住址、有效期等）、将非结构化图像转化为结构化数据，或应用于身份核验、交通管理等场景的意图。
场景scene标识：driver-license-ocr
参考示例指令：

- “读一下这张驾驶证” - “提取驾驶证上的姓名和有效期”

12. 行驶证识别

- 触发意图：当用户存在识别行驶证图片、提取证件关键信息（包括但不限于证号、姓名、住址、有效期、准驾车型等）、将行驶证影像转化为结构化数据，或应用于身份核验、交通管理及汽车租赁等场景的意图。
场景scene标识：vehicle-license-ocr
参考示例指令：

- “识别这张行驶证” - “提取行驶证上的车牌号和所有人”

13. 英文发票识别

- 触发意图：当用户存在识别英文商业发票图片、提取单据关键信息（包括但不限于发票号、日期、买卖双方信息、商品明细、金额及税额等）、将非结构化英文单据转化为结构化数据，或应用于跨境贸易单证处理、海外费用报销及国际化财务自动化审核等场景的意图。
场景scene标识：commercial-invoice-ocr
参考示例指令：

- “提取这张英文发票的信息” - “识别发票上的总金额和日期”

14. 医疗报告单识别

- 触发意图：当用户存在识别医疗报告单图片、提取报告关键信息（包括但不限于检验项目、结果、参考值等）、将医疗报告影像转化为结构化数据，或应用于电子病历归档、健康数据分析及远程医疗辅助诊断等场景的意图。
场景scene标识：medical-report-ocr
参考示例指令：

- “读一下这张化验单” - “提取报告中的异常指标”

15. 营业执照识别

- 触发意图：当用户存在识别营业执照图片、提取证件关键信息（包括但不限于统一社会信用代码、名称、类型、法定代表人、经营范围等）、将执照影像转化为结构化数据，或应用于企业身份核验、工商注册自动化、供应链准入审核及金融风控等场景的意图。
场景scene标识：business-license-ocr
参考示例指令：

- “识别这张营业执照” - “提取公司名称和法人代表”

16. 商品图片识别

- 触发意图：当用户需要识别图片中的具体商品对象，包括商品名称、品牌、品类等信息，用于商品检索或分类。
场景scene标识：product-image-ocr
参考示例指令：

- “这是什么商品？” - “识别这张图片里的产品品牌”

17. 通用文字提取（兜底意图）

- 触发意图：当用户指令中不包含上述任何具体场景，仅表达提取纯文字意图时。
场景scene标识：general-ocr
参考示例指令：

- “把这张图转成文字” - “提取图中所有文字”

⛔ 不适用场景（When Not to Use）

本技能不支持以下场景，请勿尝试：

不支持的场景	原因	建议替代方案
视频处理	仅支持单张静态图片	先提取视频帧，再逐帧处理
批量处理

⚠️ 重要注意事项

1. 禁止修改固定格式,只能替换场景标识和图片占位符
严禁自行构造 input-configs、output-configs 等内部参数
图片大小限制：本地文件不超过5MB，支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp/webp 格式

🔗 相关资源

- 夸克扫描王开放平台

📁 文件结构

- SKILL.md — 本文档（意图分析 + 通用规范）
INLINECODE8 — 主执行脚本 (Python 3.9+)
INLINECODE9 — 基础类库]()

技能名称: yescan-ocr-universal
详细描述:

🧭 使用前必读（30 秒）

[!WARNING] ⚠️ 隐私与数据流向重要提示

- 第三方服务交互：本技能会将您提供的图片发送至夸克官方服务器 (scan-business.quark.cn) 进行识别。
数据可见性：夸克服务将获取并处理该图片内容，不会永久保存

推荐方式：环境变量（免权限、即时生效、webchat 友好）
在终端中运行（本次会话立即可用）：
bash
export SCANWEBSERVICEKEY=yourscanwebservicekeyhere

如何获取密钥？官方入口在此

请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key。

⚠️ 注意：若你点击链接后跳转到其他域名，说明该链接已失效 —— 请直接在浏览器地址栏手动输入 https://scan.quark.cn/business（这是当前唯一有效的官方入口）。

Constraints

- 单一意图原则：每次请求只执行一个意图类型，命中即执行
严禁自行构造任何命令参数，严禁伪造、拼接内部配置
严禁幻觉，禁止伪造请求和响应，不得沿用上一次的场景、参数进行假设
必须严格按照本指南指定的固定格式执行，不允许自行修改命令

技能执行指南(强制执行)

第一步：环境变量检查

- 若 SCANWEBSERVICEKEY 未配置，立即返回：

json
{
code: A0100,
message: SCANWEBSERVICEKEY 未配置，请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key,
data: null
}

第二步：输入处理

识别用户传入的图片类型，只能是以下三种之一：

- 图片URL: url
本地文件路径: path
图片BASE64: base64

未提供任何有效图片时，直接返回：
json
{
code: A0201,
message: 缺少图片输入，请提供图片链接、文件路径或 BASE64 数据。,
data: null
}

第三步：意图匹配&场景确定

- 按照下面列出的意图从上到下顺序匹配。命中第一个即停止
命中后，只确定当前意图对应的scene标识

第四步：执行 Python 脚本（安全参数传递）：

使用 subprocess 模块执行脚本，参数以列表形式传递（避免 shell 注入风险）：

python
import subprocess

URL 类型

subprocess.run([ python3, scripts/scan.py, --scene, SCENE_VALUE, --url, IMAGE_URL ], capture_output=True, text=True)

本地文件类型

subprocess.run([ python3, scripts/scan.py, --scene, SCENE_VALUE, --path, IMAGEFILEPATH ], capture_output=True, text=True)

BASE64 类型

subprocess.run([ python3, scripts/scan.py, --scene, SCENE_VALUE, --base64, IMAGE_BASE64 ], capture_output=True, text=True)

安全说明：

- ✅ 参数以列表形式传递，subprocess 会自动处理转义
✅ Python 脚本内部使用 argparse 验证参数
✅ 文件路径/URL 由脚本内部验证器校验
❌ 不要使用 shell=True 或直接拼接 shell 字符串

第五步：结果透出：

- 执行完成后，原样返回执行结果，不修改，不翻译，不美化，不总结
成功失败均直接透出，不重试

场景与意图列表(按匹配优先级排序)

1. 手写文档识别

- 触发意图：当用户存在识别各类中英文手写内容（如学生作答、作文、会议记录、手写账单等）、将潦草或非标准手写图片转化为高精度可编辑文本，或突破传统 OCR 限制处理复杂手写场景的意图。
场景scene标识：handwritten-ocr
参考示例指令：

- “帮我把这张手写笔记转成文字” - “识别这张作文图片里的内容”

2. 表格识别

- 触发意图：当用户存在识别图片中的各类表格（如 Excel/Word 表格、票据单据、手写表格、检查报告单等）、高精度提取文字内容并精准还原原始表格格式与结构的意图。
场景scene标识：table-ocr
参考示例指令：

- “提取这张表格里的数据” - “把这张报销单的表格转成 Excel 格式”

3. 身份证识别

- 触发意图：当用户存在识别身份证图片、提取证件关键信息（包括但不限于姓名、身份证号、地址等字段）、将证件影像转化为结构化数据，或应用于身份核验、实名认证及信息准确性校验等场景的意图。
场景scene标识：idcard-ocr
参考示例指令：

- “帮我读一下这张身份证” - “提取身份证上的姓名和号码”

4. 社保卡识别

- 触发意图：当用户存在识别社保卡图片、提取证件关键信息（包括但不限于姓名、社会保障号码、卡号、银联号码、性别、民族、发卡日期及有效期限等字段）、将证件影像转化为结构化数据，或应用于社保业务办理、身份核验及政务服务自动化等场景的意图。
场景scene标识：social-security-card-ocr
参考示例指令：

- “识别这张社保卡的信息” - “提取社保卡上的姓名和社保号”

5. 港澳通行证识别

- 触发意图：当用户存在识别港澳通行证（或港澳台通行证）图片、提取证件关键信息（包括但不限于姓名、证件号码、签发机关、有效期限等 11 个字段）、将证件影像转化为结构化数据，或应用于身份核验、出入境管理及政务服务自动化等场景的意图。
场景scene标识：travel-permit-ocr
参考示例指令：

- “读一下这张港澳通行证” - “提取通行证上的姓名和证件号”

6. 学位证识别

- 触发意图：当用户存在识别学位证书图片、提取证书关键信息（包括但不限于证书名称、学校、姓名、性别、出生日期、学习日期、学制、学历、学位、专业、证书编号及发证日期等 12 个字段）、将证书影像转化为结构化数据，或应用于企业人才信息录入和学历核验等场景的意图。
场景scene标识：degree-certificate-ocr
参考示例指令：

- “识别这张学位证的内容” - “提取学位证上的学校和专业”

7. 增值税发票识别

- 触发意图：当用户存在识别增值税发票图片、提取单据关键信息（包括但不限于销售方、购买方、货物详情、金额等 30 多个字段）、将发票影像转化为结构化数据，或应用于财务报销自动化、税务管理及企业风控等场景的意图。
场景scene标识：vat-invoice-ocr
参考示例指令：

- “提取这张增值税发票的信息” - “识别发票上的金额和开票日期”

8. 火车票识别

- 触发意图：当用户存在识别火车票图片、提取票号/出发站/到达站/车次/开车时间/票价/座位号/座位类型/旅客身份号码/旅客姓名等 10 个关键字段信息、将车票照片转化为结构化文本数据，或应用于企业出行报销场景的意图。
场景scene标识：train-ticket-ocr
参考示例指令：

- “读一下这张火车票” - “提取火车票的出发站和车次”

9. 公式识别

- 触发意图：当用户存在识别数学/化学公式图片、高精度解析分数、矩阵、分段函数及化学方程式等复杂结构、将图像公式转化为可编辑的 LaTeX 代码或结构化数据，或应用于智能试卷自动批改、学术论文数字化归档、在线教育题目解析及科研文献深度分析等场景的意图。
场景scene标识：formula-ocr
参考示例指令：

- “把这张公式图片转成 LaTeX” - “识别这个数学公式的结构”

10. 题目识别

- 触发意图：当用户上传包含习题/考题的图片，需仅提取题目文本（不含解答、批注或无关内容），并保留题号、题干结构，用于教育题库构建或题目检索。
场景scene标识：question-ocr
参考示例指令：

- “提取这道题的关键信息” - “识别题目中的问题部分”

11. 驾驶证识别

- 触发意图：当用户存在识别驾驶证图片、提取证件关键信息（如证号、姓名、住址、有效期等）、将非结构化图像

yescan-ocr-universal通用OCR识别

yescan-ocr-universal

🧭 使用前必读（30 秒）

Constraints

技能执行指南(强制执行)

场景与意图列表(按匹配优先级排序)

⛔ 不适用场景（When Not to Use）

⚠️ 重要注意事项

🔗 相关资源

📁 文件结构

🧭 使用前必读（30 秒）

Constraints

技能执行指南(强制执行)

URL 类型

本地文件类型

BASE64 类型

场景与意图列表(按匹配优先级排序)

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

yescan-ocr-universal通用OCR识别

yescan-ocr-universal

🧭 使用前必读（30 秒）

Constraints

技能执行指南(强制执行)

场景与意图列表(按匹配优先级排序)

⛔ 不适用场景（When Not to Use）

⚠️ 重要注意事项

🔗 相关资源

📁 文件结构

🧭 使用前必读（30 秒）

Constraints

技能执行指南(强制执行)

URL 类型

本地文件类型

BASE64 类型

场景与意图列表(按匹配优先级排序)

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement