返回顶部
m

midasheng-audio-text-distance音频文本距离

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
147
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

midasheng-audio-text-distance

midasheng-audio-text-distance

基于对比语言-音频预训练(GLAP)的多语言音频-文本检索与分类服务。

1. 触发条件

当用户需要以下操作时使用此技能:

  • - 将音频文件与文本描述进行匹配
  • 使用自然语言查询对音频内容进行分类
  • 执行零样本音频事件检测
  • 通过任意语言(支持50+种语言)的文本搜索音频

2. API详情

接口地址: POST https://llmplus.ai.xiaomi.com/dasheng/audio/search(多部分表单数据)

参数:

  • - files:一个或多个音频文件——可多次指定
  • text:用于匹配的逗号分隔的文本描述/标签

3. 使用方法

基础用法:将音频与文本标签匹配

bash curl -X POST https://llmplus.ai.xiaomi.com/dasheng/audio/search \ -F files=@audio1.mp3 \ -F text=噪音,语音,有人在说话

脚本用法

bash python3 scripts/audiosearch.py audio1.mp3 --text 语音,音乐,噪音 python3 scripts/audiosearch.py --queue # 查看排队状态

4. 排队情况

查询命令

bash python3 scripts/audiosearch.py --queue

或直接调用API:

curl -X POST https://llmplus.ai.xiaomi.com/metrics?path=/dasheng/audio/search

返回字段

  • - active:当前活跃请求数
  • avglatencyms:平均处理耗时(毫秒)
  • 预估等待时长 = active × avglatencyms

何时调用

  1. 1. IM即将超时但search服务还未返回结果时:查询排队情况告知用户,请用户稍后询问。
  2. 用户稍后询问任务进度但服务仍未返回时:查询最新排队情况返回给用户。

状态分级

  • - 🟢 active=0 或预估等待<5秒 → 服务空闲
  • 🟡 预估等待5-30秒 → 轻微排队
  • 🔴 预估等待>30秒 → 排队较长,建议稍后重试

5. 支持的音频格式

常见格式:mp3、wav、flac、ogg、m4a。

6. 故障排除

  • - 所有标签得分较低:尝试使用更宽泛的描述
  • API请求失败:检查网络连接
  • 不支持的格式:先转换为mp3或wav格式

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 midasheng-audio-text-distance-1776101400 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 midasheng-audio-text-distance-1776101400 技能

通过命令行安装

skillhub install midasheng-audio-text-distance-1776101400

下载

⬇ 下载 midasheng-audio-text-distance v1.0.0(免费)

文件大小: 4.07 KB | 发布时间: 2026-4-17 15:24

v1.0.0 最新 2026-4-17 15:24
- Initial release of midasheng-audio-text-distance.
- Enables multilingual audio-text retrieval and classification using the GLAP model.
- Supports searching and matching audio files against text descriptions, classifying audio by text queries, and zero-shot audio event detection in 50+ languages.
- Provides queue status monitoring and guidance on interpreting service response delays.
- Supports multiple common audio formats (mp3, wav, flac, ogg, m4a).

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部