返回顶部
v

voice-clone-bot语音克隆

Synthesize speech by cloning a user's voice from a reference audio sample, then reading generated text aloud in that cloned voice. Use this skill whenever the user sends a voice message and expects an audio reply, asks to "speak", "clone my voice", "read this aloud", "reply with audio", or any context where a spoken voice response is appropriate. Also use when the user wants to switch into "voice mode" for conversation. Even if the user doesn't explicitly say "voice clone", use this skill if the

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.1.0
安全检测
已通过
110
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

voice-clone-bot

语音克隆技能

一个自初始化、零配置的语音克隆技能。它管理一个后台TTS守护进程,将重型模型权重保留在内存中以实现快速推理。支持多种引擎和无限文本长度。

快速参考

项目
入口脚本bash scripts/runtts.sh --text ... --refaudio ... [--speed 1.0] [--output_dir ...]
输出
单行:生成的.ogg文件的绝对路径 | | 附件格式 | MEDIA:<输出路径> | | 默认引擎 | F5-TTS(环境变量TTS_BACKEND=f5) | | 主机/端口配置 | .env(TTSSERVERHOST、TTSSERVERPORT) |

何时使用此技能

  • - 用户发送语音备忘录或音频文件,您需要用音频回复。
  • 用户说读出来、跟我说话、用我的声音、语音模式。
  • 对话上下文暗示期望语音回复。
  • 用户提供参考音频并要求您模仿他们的声音。

分步使用指南

1. 识别输入

您需要两样东西:

  • - ref_audio:用户参考音频文件的本地绝对路径(要克隆的声音)。这通常是用户刚刚发送的音频文件,由ASR系统(例如openai-whisper)保存。
  • text:您想要朗读的文本内容。像平常一样生成——思考您的回复,然后将其语音化。

2. 运行合成

执行此命令:

bash
bash scripts/runtts.sh --text 您的回复文本。 --refaudio /绝对/路径/到/参考音频.ogg

可选参数:

  • - --speed 1.2 — 加快语速。范围:0.5到2.0。默认值:1.0。
  • --outputdir /tmp/ — 将生成的音频文件保存到特定的绝对文件夹路径。默认值:server/generatedaudio/。

包含所有选项的示例:
bash
bash scripts/run_tts.sh \
--text 很高兴认识你,这是我克隆后的声音。 \
--refaudio /tmp/uservoice_msg.ogg \
--speed 0.9

3. 处理输出

脚本在标准输出上打印单个绝对路径(例如 /path/to/reply_a1b2c3d4.ogg)。
使用附件格式将其附加到您的回复中:

MEDIA:/path/to/reply_a1b2c3d4.ogg

4. 重要限制

  • - 不要手动启动python app.py或管理后端。run_tts.sh脚本会自动检测、自动安装和自动启动所有内容。
  • 首次运行较慢(约30-60秒),因为需要下载模型权重并将其加载到内存中。后续调用很快。
  • 长文本自动处理。 引擎将文本拆分为句子,合成每个片段,并无缝拼接。没有长度限制。

控制语音特征

语速(所有引擎)

--speed参数调整说话速率:

效果
0.7缓慢、从容,适合老年听众
1.0
自然对话速度(默认) |
| 1.3 | 轻快,适合新闻或简报 |
| 1.5+ | 快速、紧凑的传达 |

F5-TTS原生支持语速。其他引擎使用ffmpeg后处理(atempo滤镜),效果良好但在极端值下可能略微影响质量。

情感和语调

这些模型使用参考音频的声学特征提取——它们不接受基于文本的情感标签,如[happy]或[sad]。

输出的情感完全由参考音频决定。

要控制情感,选择或准备带有期望语调的参考音频:

期望语调参考音频策略
平静、中性使用说话者正常说话的参考片段
兴奋、开心
使用说话者听起来热情的参考片段 |
| 愤怒、强烈 | 使用提高音量、语调尖锐的参考片段 |
| 悲伤、忧郁 | 使用语速缓慢、情绪低落的参考片段 |
| 低语 | 使用说话者低语的参考片段 |

对代理的实用建议: 如果用户发送了多条语音消息,选择情感最符合您回复上下文的那一条。如果只有一个参考可用,直接使用——模型会近似说话者的总体风格。

ChatTTS特性: 该引擎支持文本中的内联情感标签:[laugh]、[uv_break](停顿)。当提供参考音频时,它也支持语音克隆。

可用引擎

引擎ID安装大小克隆语速支持最佳用途
F5-TTSf5bash scripts/autoinstaller.sh~1.5GB原生最高质量克隆
CosyVoice
cosyvoice | bash scripts/installcosyvoice.sh | ~1.5GB | ✅ | ffmpeg | 自然中文韵律 | | ChatTTS | chattts | bash scripts/install_chattts.sh | ~400MB | ✅ | ffmpeg | 带情感标签的对话 | | OpenVoice | openvoice | bash scripts/install_openvoice.sh | ~300MB | ✅ | ffmpeg | 超快、小体积 |

通过在服务器启动前设置环境变量来切换引擎:
bash
export TTS_BACKEND=cosyvoice

卸载

bash

移除所有内容(虚拟环境、守护进程、注册)


bash scripts/uninstall.sh

仅移除一个引擎的源代码

bash scripts/uninstall.sh --engine cosyvoice

移除所有内容,包括下载的模型权重(数GB)

bash scripts/uninstall.sh --purge

文件结构

scripts/
├── run_tts.sh # 主入口点(自动修复、自动启动守护进程)
├── tts_client.py # 与后端通信的HTTP客户端
├── auto_installer.sh # 安装F5-TTS(默认)+ 注册技能
├── install_cosyvoice.sh # 安装CosyVoice引擎
├── install_chattts.sh # 安装ChatTTS引擎
├── install_openvoice.sh # 安装OpenVoice引擎
└── uninstall.sh # 清理脚本
server/
├── app.py # FastAPI守护进程(自动管理,不要手动启动)
├── core_tts.py # 多引擎工厂 + 长文本分块
└── requirements.txt # 基础依赖

参考资料

  • - 阅读 references/architecture.md 了解系统架构和设计原理。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 voice-clone-bot-1775912342 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 voice-clone-bot-1775912342 技能

通过命令行安装

skillhub install voice-clone-bot-1775912342

下载

⬇ 下载 voice-clone-bot v1.1.0(免费)

文件大小: 26.53 KB | 发布时间: 2026-4-12 11:53

v1.1.0 最新 2026-4-12 11:53
Rename synchronization to voice-clone-bot, skill metadata alignment, docs/scripts naming sync, and skill-creator formatted release package (no TTS logic changes).

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部