返回顶部
i

ifly-image-understanding讯飞图片理解

iFlytek Image Understanding (图片理解) — analyze and answer questions about images using Spark Vision model. WebSocket API, pure Python stdlib, no pip dependencies.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
159
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ifly-image-understanding

ifly-image-understanding

使用科大讯飞星火视觉模型分析图片并回答相关问题(图片理解)。

环境配置

  1. 1. 在讯飞控制台创建应用并开通图片理解服务
  2. 设置环境变量:
bash export IFLYAPPID=yourappid export IFLYAPIKEY=yourapikey export IFLYAPISECRET=yourapisecret

使用方法

描述图片

bash
python3 scripts/image_understanding.py photo.jpg

询问图片相关问题

bash
python3 scripts/image_understanding.py photo.jpg -q 图片里有什么动物?

使用基础模型(更低Token消耗)

bash
python3 scripts/image_understanding.py photo.jpg --domain general

参数选项

标志缩写描述
image图片文件路径(.jpg, .jpeg, .png)
--question
-q | 关于图片的问题(默认:描述) | | --domain | -d | imagev3(高级,默认)或 general(基础,固定273 tokens/图片) | | --temperature | -t | 采样温度(0,1],默认0.5 | | --max-tokens | | 最大响应tokens 1-8192,默认2048 | | --raw | | 输出原始WebSocket JSON帧 |

示例

bash

识别收据文字


python3 scripts/image_understanding.py receipt.png -q 总金额是多少?

识别物体

python3 scripts/image_understanding.py scene.jpg -q 图片中有哪些物体?

低成本基础模型

python3 scripts/image_understanding.py chart.png -q 图表的趋势是什么? -d general

注意事项

  • - 图片格式:.jpg, .jpeg, .png
  • 最大图片大小:4MB
  • 最大Token数:8192(输入+输出合计)
  • 认证方式:HMAC-SHA256签名WebSocket URL
  • 接口地址:wss://spark-api.cn-huabei-1.xf-yun.com/v2.1/image
  • 纯标准库:无需pip依赖——使用内置socket + ssl实现WebSocket
  • 模型版本:imagev3(高级,动态Token消耗)vs general(基础,固定273 tokens/图片)

错误码说明 😢

遇到错误先别慌~看看下面找到对应的解决方法吧!✨

错误码错误信息解决办法
0🎉 成功恭喜你!请求正常完成啦~
10003
用户的消息格式有错误 | 检查一下你的请求格式是否正确哦~确保发送的是合法的JSON格式呢! |
| 10004 | 用户数据的schema错误 | 看起来数据结构有点问题~请检查一下字段名称和类型是否正确呀! |
| 10005 | 用户参数值有错误 | 参数值可能不太对呢~仔细核对一下每个参数的有效范围吧! |
| 10006 | 用户并发错误:同一用户不能多处同时连接 | 检测到重复连接啦!请确保只有一个客户端在连接同一个用户ID哦~ |
| 10013 | 用户问题涉及敏感信息,审核不通过 | 哎呀,你的问题可能包含了一些不太合适的内容~换个问题试试看吧! |
| 10022 | 模型生产的图片涉及敏感信息,审核不通过 | 生成的图片没有通过审核呢...很抱歉,换张图片再试一下吧! |
| 10029 | 图片任何一边的长度超过12800 | 图片尺寸太大啦!请确保图片宽高都不超过12800像素哦~ |
| 10041 | 图片分辨率不符合要求 | 图片尺寸不合适的呢~要求是:50×50 < 图片总像素值 < 6000×6000 哦! |
| 10907 | Token数量超过上限 | 内容太丰富啦!对话历史+问题的字数太多,需要精简一下输入哦~ |

💡 小贴士:如果还有其他问题,可以查看官方文档或者联系技术支持哦!


常见问题 🤔

图片理解的主要功能是什么呀?🐱

答:用户输入一张图片和问题,从而识别出图片中的对象、场景等信息,然后回答你的问题~是不是很方便呢!✨

图片理解支持什么应用平台呢?📱

答:目前支持 Web API 应用平台哦!直接在代码里调用就可以啦~

图片理解的文本大小限制多少呀?📝

答:有效内容不能超过 8192 Token 呢~如果超过了就要精简一下输入啦!

更多资源 📚

  • - 📖 使用文档:https://console.xfyun.cn/services/image
  • 🛒 购买套餐:https://console.xfyun.cn/sale/buy?wareId=9046&packageId=9046002&serviceName=%E5%9B%BE%E7%89%87%E7%90%86%E8%A7%A3&businessId=image

有更多问题随时来问我哦~祝你使用愉快!🌸

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ifly-image-understanding-1776185281 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ifly-image-understanding-1776185281 技能

通过命令行安装

skillhub install ifly-image-understanding-1776185281

下载

⬇ 下载 ifly-image-understanding v1.0.0(免费)

文件大小: 7.65 KB | 发布时间: 2026-4-17 15:04

v1.0.0 最新 2026-4-17 15:04
Initial release of iFlytek Image Understanding skill

- Analyze and answer questions about images using Spark Vision model via WebSocket API.
- Pure Python standard library; no pip dependencies required.
- Supports flexible querying: general description, specific questions, and basic/advanced model selection.
- Configurable options for domain, temperature, max tokens, and raw output.
- Includes error code explanations and usage examples.
- Max image size 4MB, supported formats: .jpg, .jpeg, .png.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部