midasheng-audio-text-distance
Contrastive Language-Audio Pretraining (GLAP) based service for multilingual audio-text retrieval and classification.
1. Trigger
Use this skill when the user wants to:
- - Match audio files against text descriptions
- Classify audio content using natural language queries
- Perform zero-shot audio event detection
- Search audio by text in any language (supports 50+ languages)
2. API Details
Endpoint: POST https://llmplus.ai.xiaomi.com/dasheng/audio/search (multipart form-data)
Parameters:
- -
files: One or more audio files — can specify multiple times - INLINECODE2 : Comma-separated text descriptions/labels to match against
3. Usage
Basic: Match audio against text labels
CODEBLOCK0
Script usage
CODEBLOCK1
4. Queue Status(排队情况)
查询命令
CODEBLOCK2
返回字段
- -
active: 当前活跃请求数 - INLINECODE4 : 平均处理耗时(毫秒)
- 预估等待时长 = active × avglatencyms
何时调用
- 1. IM 即将超时但 search 服务还未返回结果时:查排队情况告知用户,请用户稍后来问。
- 用户稍后询问任务进度但服务仍未返回时:查最新排队情况返回给用户。
状态分级
- - 🟢 active=0 或预估等待 <5s → 服务空闲
- 🟡 预估等待 5-30s → 轻微排队
- 🔴 预估等待 >30s → 排队较长,建议稍后重试
5. Supported Audio Formats
Common formats: mp3, wav, flac, ogg, m4a.
6. Troubleshooting
- - Low scores across all labels: Try broader descriptions
- API request failed: Verify network connectivity
- Unsupported format: Convert to mp3 or wav first
midasheng-audio-text-distance
基于对比语言-音频预训练(GLAP)的多语言音频-文本检索与分类服务。
1. 触发条件
当用户需要以下操作时使用此技能:
- - 将音频文件与文本描述进行匹配
- 使用自然语言查询对音频内容进行分类
- 执行零样本音频事件检测
- 通过任意语言(支持50+种语言)的文本搜索音频
2. API详情
接口地址: POST https://llmplus.ai.xiaomi.com/dasheng/audio/search(多部分表单数据)
参数:
- - files:一个或多个音频文件——可多次指定
- text:用于匹配的逗号分隔的文本描述/标签
3. 使用方法
基础用法:将音频与文本标签匹配
bash
curl -X POST https://llmplus.ai.xiaomi.com/dasheng/audio/search \
-F files=@audio1.mp3 \
-F text=噪音,语音,有人在说话
脚本用法
bash
python3 scripts/audiosearch.py audio1.mp3 --text 语音,音乐,噪音
python3 scripts/audiosearch.py --queue # 查看排队状态
4. 排队情况
查询命令
bash
python3 scripts/audiosearch.py --queue
或直接调用API:
curl -X POST https://llmplus.ai.xiaomi.com/metrics?path=/dasheng/audio/search
返回字段
- - active:当前活跃请求数
- avglatencyms:平均处理耗时(毫秒)
- 预估等待时长 = active × avglatencyms
何时调用
- 1. IM即将超时但search服务还未返回结果时:查询排队情况告知用户,请用户稍后询问。
- 用户稍后询问任务进度但服务仍未返回时:查询最新排队情况返回给用户。
状态分级
- - 🟢 active=0 或预估等待<5秒 → 服务空闲
- 🟡 预估等待5-30秒 → 轻微排队
- 🔴 预估等待>30秒 → 排队较长,建议稍后重试
5. 支持的音频格式
常见格式:mp3、wav、flac、ogg、m4a。
6. 故障排除
- - 所有标签得分较低:尝试使用更宽泛的描述
- API请求失败:检查网络连接
- 不支持的格式:先转换为mp3或wav格式