返回顶部
m

midasheng-audio-generate音频场景生成

Developed by Xiaomi and Shanghai Jiao Tong University. Transform text into high‑quality audio scenes with speech, SFX, music, and ambiance. Demo: https://nieeim.github.io/Dasheng-AudioGen-Web/

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.1.5
安全检测
已通过
191
下载量
免费
免费
3
收藏
概述
安装方式
版本历史

midasheng-audio-generate

midasheng-audio-generate

根据文本描述生成音频场景。生成包含语音、音效、音乐和环境声音的WAV音频。

1. 触发条件

当用户请求基于文本描述生成音频、音效或音乐时,使用此技能。

2. 执行步骤

步骤1:设计音频场景(提示词优化)

在调用API之前,您必须充当专业的音频场景架构师和拟音设计师。深入理解用户的自然语言输入(可能为任何语言),并基于真实声学逻辑和场景真实感,将其转换为高度结构化的标记字符串。

提示词标记定义:

  • * <|caption|>:音频场景的整体、全面描述。
  • <|speech|>:说话者身份(如中年男性、活力女孩)及说话风格。
  • <|asr|>:实际文本/口语对话内容。
  • <|sfx|>:音频中存在的特定音效(如脚步声、门铃声、狗叫声)。
  • <|music|>:背景音乐描述(如柔和爵士、紧张管弦乐)。
  • <|env|>:环境或氛围背景噪音(如城市喧嚣、森林风声和蟋蟀声)。

关键生成规则:

  1. 1. 场景丰富化:不要仅仅复制用户输入!作为音效设计师,逻辑性地丰富场景。
  2. 语音与对话生成:如果用户明确提到语音或暗示说话场景,创造性地为<|speech|>和<|asr|>字段生成合理且生动的文本。
  3. 严格ASR格式:对于<|asr|>标签,仅输出原始口语文本。不要包含任何说话者标签或叙述,如“男人:”、“说话者1:”或“一个男人说”。
  4. 省略缺失元素:如果任何元素不相关,直接省略其对应标签
  5. 语言与大小写约束:整个生成的提示词字符串必须为小写英文,包括<|asr|>内容。
  6. 严格输出:内部仅输出格式化后的标记字符串,用于下一步。

步骤2:执行命令

bash curl -X POST https://llmplus.ai.xiaomi.com/dasheng/audio/gen \ -H Content-Type: application/json \ -d {\text\: \<格式化提示词字符串>\} \ -o <文件名.wav>

3. 队列状态

查询命令

bash curl -X POST https://llmplus.ai.xiaomi.com/metrics?path=/dasheng/audio/gen

返回字段

  • - active:当前活跃请求数
  • avglatencyms:平均处理延迟(毫秒)
  • 预计等待时间 = active × avglatencyms

调用时机

  1. 1. 当即时通讯即将超时但音频生成服务尚未返回结果时:检查队列状态并告知用户,请其稍后再次查询。
  2. 当用户稍后询问任务进度但服务仍未返回结果时:检查最新队列状态并反馈给用户。

状态等级

  • - 🟢 active=0或预计等待<5秒 → 服务空闲
  • 🟡 预计等待5-30秒 → 轻微排队
  • 🔴 预计等待>30秒 → 队列较长,建议稍后重试

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 midasheng-audio-generate-1776103201 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 midasheng-audio-generate-1776103201 技能

通过命令行安装

skillhub install midasheng-audio-generate-1776103201

下载

⬇ 下载 midasheng-audio-generate v1.1.5(免费)

文件大小: 2.77 KB | 发布时间: 2026-4-17 15:24

v1.1.5 最新 2026-4-17 15:24
- Minor update to the skill description: now lists Xiaomi and Shanghai Jiao Tong University as developers at the beginning, improving attribution.
- No functional or technical changes; behavior and API usage remain unchanged.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部