midasheng-audio-text-distance

基于对比语言-音频预训练（GLAP）的多语言音频-文本检索与分类服务。

1. 触发条件

当用户需要以下操作时使用此技能：

- 将音频文件与文本描述进行匹配
使用自然语言查询对音频内容进行分类
执行零样本音频事件检测
通过任意语言（支持50+种语言）的文本搜索音频

2. API详情

接口地址： POST https://llmplus.ai.xiaomi.com/dasheng/audio/search（多部分表单数据）

参数：

- files：一个或多个音频文件——可多次指定
text：用于匹配的逗号分隔的文本描述/标签

3. 使用方法

基础用法：将音频与文本标签匹配

bash curl -X POST https://llmplus.ai.xiaomi.com/dasheng/audio/search \ -F files=@audio1.mp3 \ -F text=噪音,语音,有人在说话

脚本用法

bash python3 scripts/audiosearch.py audio1.mp3 --text 语音,音乐,噪音 python3 scripts/audiosearch.py --queue # 查看排队状态

4. 排队情况

查询命令

bash python3 scripts/audiosearch.py --queue

或直接调用API：

curl -X POST https://llmplus.ai.xiaomi.com/metrics?path=/dasheng/audio/search

返回字段

- active：当前活跃请求数
avglatencyms：平均处理耗时（毫秒）
预估等待时长 = active × avglatencyms

何时调用

1. IM即将超时但search服务还未返回结果时：查询排队情况告知用户，请用户稍后询问。
用户稍后询问任务进度但服务仍未返回时：查询最新排队情况返回给用户。

状态分级

- 🟢 active=0 或预估等待<5秒 → 服务空闲
🟡 预估等待5-30秒 → 轻微排队
🔴 预估等待>30秒 → 排队较长，建议稍后重试

5. 支持的音频格式

常见格式：mp3、wav、flac、ogg、m4a。

6. 故障排除

- 所有标签得分较低：尝试使用更宽泛的描述
API请求失败：检查网络连接
不支持的格式：先转换为mp3或wav格式

midasheng-audio-text-distance音频文本距离