ifly-image-understanding

Analyze images and answer questions about their content using iFlytek's Spark Vision model (图片理解).

Setup

1. Create an app at 讯飞控制台 with 图片理解 service enabled
Set environment variables:

CODEBLOCK0

Usage

Describe an image

CODEBLOCK1

Ask a question about an image

CODEBLOCK2

Use basic model (lower token cost)

CODEBLOCK3

Options

Flag	Short	Description
INLINECODE0		Image file path (.jpg, .jpeg, .png)
INLINECODE1

Examples

CODEBLOCK4

Notes

- Image formats: .jpg, .jpeg, .png
Max image size: 4MB
Max tokens: 8192 (input + output combined)
Auth: HMAC-SHA256 signed WebSocket URL
Endpoint: INLINECODE11
Pure stdlib: No pip dependencies — uses built-in socket + ssl for WebSocket
Model versions: imagev3 (advanced, dynamic token cost) vs general (basic, fixed 273 tokens/image)

错误码说明 😢

遇到错误先别慌～看看下面找到对应的解决方法吧！✨

错误码	错误信息	解决办法
0	🎉 成功	恭喜你！请求正常完成啦～
10003

💡 小贴士：如果还有其他问题，可以查看官方文档或者联系技术支持哦！

常见问题 🤔

图片理解的主要功能是什么呀？🐱

答：用户输入一张图片和问题，从而识别出图片中的对象、场景等信息，然后回答你的问题～是不是很方便呢！✨

图片理解支持什么应用平台呢？📱

答：目前支持 Web API 应用平台哦！直接在代码里调用就可以啦～

图片理解的文本大小限制多少呀？📝

答：有效内容不能超过 8192 Token 呢～如果超过了就要精简一下输入啦！

ifly-image-understanding

使用科大讯飞星火视觉模型分析图片并回答相关问题（图片理解）。

环境配置

1. 在讯飞控制台创建应用并开通图片理解服务
设置环境变量：

bash export IFLYAPPID=yourappid export IFLYAPIKEY=yourapikey export IFLYAPISECRET=yourapisecret

使用方法

描述图片

bash
python3 scripts/image_understanding.py photo.jpg

询问图片相关问题

bash
python3 scripts/image_understanding.py photo.jpg -q 图片里有什么动物？

使用基础模型（更低Token消耗）

bash
python3 scripts/image_understanding.py photo.jpg --domain general

参数选项

标志	缩写	描述
image		图片文件路径（.jpg, .jpeg, .png）
--question

示例

bash

识别收据文字

python3 scripts/image_understanding.py receipt.png -q 总金额是多少？

识别物体

python3 scripts/image_understanding.py scene.jpg -q 图片中有哪些物体？

低成本基础模型

python3 scripts/image_understanding.py chart.png -q 图表的趋势是什么？ -d general

注意事项

- 图片格式：.jpg, .jpeg, .png
最大图片大小：4MB
最大Token数：8192（输入+输出合计）
认证方式：HMAC-SHA256签名WebSocket URL
接口地址：wss://spark-api.cn-huabei-1.xf-yun.com/v2.1/image
纯标准库：无需pip依赖——使用内置socket + ssl实现WebSocket
模型版本：imagev3（高级，动态Token消耗）vs general（基础，固定273 tokens/图片）