Qwen 音频实验室

使用此技能在 macOS 或阿里云通义千问上实现文本转语音。

选择后端

- 使用 mac-say 在 Mac 上实现快速本地播放、通知和低门槛语音合成。
当用户需要更好的自然度、可复用的输出文件、自定义音色或声音克隆时，使用 qwen-tts。
如果缺少 DASHSCOPEAPIKEY，则回退到 mac-say 进行本地播放。

环境变量

- DASHSCOPEAPIKEY：通义千问语音合成和声音克隆所需。
QWENAUDIOREGION：可选，cn（默认）或 intl。
QWENAUDIOOUTPUTDIR：生成的音频文件的可选目录。默认为 ~/.openclaw/data/qwen-audio-lab/output。
QWENAUDIOSTATEDIR：本地状态（如已记忆的音色）的可选目录。默认为 ~/.openclaw/data/qwen-audio-lab/state。

命令

所有命令通过以下方式运行：

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py [...]

推荐的高级命令

对于大多数面向用户的叙述任务，优先使用以下命令：

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-text --text 这是要转成语音的正文
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-file --text-file /path/to/script.txt
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-ppt --ppt /path/to/file.pptx

仅在需要特定旧版工作流名称时使用旧命令。
生成的音频和已记忆的音色状态现在默认存储在 ~/.openclaw/data/qwen-audio-lab/ 而非技能文件夹中。

本地 macOS 语音合成

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py mac-say \
--text 开会了，别忘了带电脑 \
--voice Tingting

从内联文本进行通义千问 TTS

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py qwen-tts \
--text 你好，我是你的语音助手。 \
--voice Cherry \
--model qwen3-tts-flash \
--language-type Chinese \
--download

从文本文件进行通义千问 TTS

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py qwen-tts \
--text-file /path/to/script.txt \
--voice Cherry \
--download

从标准输入进行通义千问 TTS

bash
cat /path/to/script.txt | python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py qwen-tts \
--stdin \
--voice Cherry \
--download

克隆声音

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py clone-voice \
--audio /path/to/reference.mp3 \
--name claw-voice-01 \
--target-model qwen3-tts-vc-2026-01-22

- 保持克隆的 target-model 与合成模型系列一致。
使用背景噪音最小的清晰语音样本。
在克隆第三方声音且同意情况不明确时，先征询用户意见。

从文本提示设计声音

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py design-voice \
--prompt 沉稳的中年男性播音员，音色低沉浑厚，适合纪录片旁白。 \
--name doc-voice-01 \
--target-model qwen3-tts-vd-2026-01-26 \
--preview-format wav

旧版命令：复用最近克隆的声音

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py speak-last-cloned \
--text 你好，这是我的声音测试。 \
--download

从任意文本源进行高级叙述

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-text \
--text 这是要转成语音的正文 \
--output narration.wav

python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-file \
--text-file /path/to/script.txt

- 默认声音来源为 last-cloned。
使用 --voice-source last-designed 切换到最近设计的声音。
使用 --voice 和可选的 --model 强制指定特定声音 ID 和合成模型。

旧版命令：使用最近克隆的声音叙述 PPT 演讲者备注

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py ppt-own-voice --ppt /path/to/file.pptx

高级 PPT 叙述

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py narrate-ppt --ppt /path/to/file.pptx

- 默认声音来源为 last-cloned。
使用 --voice-source last-designed 切换到最近设计的声音。
使用 --voice 和可选的 --model 强制指定特定声音 ID 和合成模型。
保留 ppt-own-voice 作为原始工作流的向后兼容别名。

检查或管理已记忆的声音

bash
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py list-voices
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py show-last-voice --kind cloned
python3 ~/.openclaw/skills/qwen-audio-lab/scripts/qwen_audio.py delete-voice --voice claw-voice-01

工作流规则

- 在要求新的声音样本之前，优先复用已有的克隆声音。
如果用户想要自己的声音但尚无克隆声音，则请求提供参考录音。
对于叙述任务，优先使用 narrate-* 命令作为主要的高级接口。
保留 speak-last-cloned 和 ppt-own-voice 以保持与旧版工作流的向后兼容。
分段合成后默认只保留最终输出，除非用户明确要求保留片段。

qwen-audio-labQwen音频实验室

qwen-audio-lab

Qwen Audio Lab

Choose the backend

Environment

Commands

Preferred high-level commands

Local macOS speech

Qwen TTS from inline text

Qwen TTS from a text file

Qwen TTS from stdin

Clone a voice

Design a voice from a text prompt

Legacy command: reuse the latest cloned voice

High-level narration from any text source

Legacy command: narrate PPT speaker notes with the latest cloned voice

High-level PPT narration

Inspect or manage remembered voices

Workflow rules

Qwen 音频实验室

选择后端

环境变量

命令

推荐的高级命令

本地 macOS 语音合成

从内联文本进行通义千问 TTS

从文本文件进行通义千问 TTS

从标准输入进行通义千问 TTS

克隆声音

从文本提示设计声音

旧版命令：复用最近克隆的声音

从任意文本源进行高级叙述

旧版命令：使用最近克隆的声音叙述 PPT 演讲者备注

高级 PPT 叙述

检查或管理已记忆的声音

工作流规则

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement