返回顶部
q

qwen-audio-labQwen音频实验室

Hybrid text-to-speech, reusable voice cloning, and narrated audio generation for macOS plus Aliyun Qwen. Use when the user wants to convert text into speech, clone and reuse a voice from a reference recording, generate narration files from plain text or text files, or create PPT speaker-note voiceovers.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.0.1
安全检测
已通过
171
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

qwen-audio-lab

Qwen 音频实验室

使用此技能在 macOS 或阿里云通义千问上实现文本转语音。

选择后端

  • - 使用 mac-say 在 Mac 上实现快速本地播放、通知和低门槛语音合成。
  • 当用户需要更好的自然度、可复用的输出文件、自定义音色或声音克隆时,使用 qwen-tts。
  • 如果缺少 DASHSCOPEAPIKEY,则回退到 mac-say 进行本地播放。

环境变量

  • - DASHSCOPEAPIKEY:通义千问语音合成和声音克隆所需。
  • QWENAUDIOREGION:可选,cn(默认)或 intl。
  • QWENAUDIOOUTPUTDIR:生成的音频文件的可选目录。默认为 ~/.openclaw/data/qwen-audio-lab/output。
  • QWENAUDIOSTATEDIR:本地状态(如已记忆的音色)的可选目录。默认为 ~/.openclaw/data/qwen-audio-lab/state。

命令

所有命令通过以下方式运行:

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py [...]

推荐的高级命令

对于大多数面向用户的叙述任务,优先使用以下命令:

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-text --text 这是要转成语音的正文
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-file --text-file /path/to/script.txt
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-ppt --ppt /path/to/file.pptx

仅在需要特定旧版工作流名称时使用旧命令。
生成的音频和已记忆的音色状态现在默认存储在 ~/.openclaw/data/qwen-audio-lab/ 而非技能文件夹中。

本地 macOS 语音合成

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py mac-say \
--text 开会了,别忘了带电脑 \
--voice Tingting

从内联文本进行通义千问 TTS

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py qwen-tts \
--text 你好,我是你的语音助手。 \
--voice Cherry \
--model qwen3-tts-flash \
--language-type Chinese \
--download

从文本文件进行通义千问 TTS

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py qwen-tts \
--text-file /path/to/script.txt \
--voice Cherry \
--download

从标准输入进行通义千问 TTS

bash
cat /path/to/script.txt | python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py qwen-tts \
--stdin \
--voice Cherry \
--download

克隆声音

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py clone-voice \
--audio /path/to/reference.mp3 \
--name claw-voice-01 \
--target-model qwen3-tts-vc-2026-01-22

  • - 保持克隆的 target-model 与合成模型系列一致。
  • 使用背景噪音最小的清晰语音样本。
  • 在克隆第三方声音且同意情况不明确时,先征询用户意见。

从文本提示设计声音

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py design-voice \
--prompt 沉稳的中年男性播音员,音色低沉浑厚,适合纪录片旁白。 \
--name doc-voice-01 \
--target-model qwen3-tts-vd-2026-01-26 \
--preview-format wav

旧版命令:复用最近克隆的声音

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py speak-last-cloned \
--text 你好,这是我的声音测试。 \
--download

从任意文本源进行高级叙述

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-text \
--text 这是要转成语音的正文 \
--output narration.wav

python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-file \
--text-file /path/to/script.txt

  • - 默认声音来源为 last-cloned。
  • 使用 --voice-source last-designed 切换到最近设计的声音。
  • 使用 --voice 和可选的 --model 强制指定特定声音 ID 和合成模型。

旧版命令:使用最近克隆的声音叙述 PPT 演讲者备注

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py ppt-own-voice --ppt /path/to/file.pptx

高级 PPT 叙述

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-ppt --ppt /path/to/file.pptx

  • - 默认声音来源为 last-cloned。
  • 使用 --voice-source last-designed 切换到最近设计的声音。
  • 使用 --voice 和可选的 --model 强制指定特定声音 ID 和合成模型。
  • 保留 ppt-own-voice 作为原始工作流的向后兼容别名。

检查或管理已记忆的声音

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py list-voices
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py show-last-voice --kind cloned
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py delete-voice --voice claw-voice-01

工作流规则

  • - 在要求新的声音样本之前,优先复用已有的克隆声音。
  • 如果用户想要自己的声音但尚无克隆声音,则请求提供参考录音。
  • 对于叙述任务,优先使用 narrate-* 命令作为主要的高级接口。
  • 保留 speak-last-cloned 和 ppt-own-voice 以保持与旧版工作流的向后兼容。
  • 分段合成后默认只保留最终输出,除非用户明确要求保留片段。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 qwen-audio-lab-1776130801 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 qwen-audio-lab-1776130801 技能

通过命令行安装

skillhub install qwen-audio-lab-1776130801

下载

⬇ 下载 qwen-audio-lab v0.0.1(免费)

文件大小: 8.29 KB | 发布时间: 2026-4-17 15:54

v0.0.1 最新 2026-4-17 15:54
Initial release: Hybrid text-to-speech skill for macOS and Aliyun Qwen, with support for voice cloning and narrated file generation.

- Provides text-to-speech via both local macOS and Aliyun Qwen backends.
- Supports cloning and reusing voices from user-supplied audio samples.
- Generates narration audio from plain text, text files, or PPT speaker notes.
- Offers easy high-level commands for narration, as well as legacy commands for backward compatibility.
- Adds environment variables for API keys, output directories, and state management.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部