返回顶部
i

ifly-voiceclone-tts声音复刻合成

iFlytek Voice Clone tts(声音复刻) — train a custom voice model from audio samples and synthesize speech with the cloned voice. Supports the full workflow: get training text → create task → upload audio → submit training → poll results → synthesize with cloned voice. Pure Python stdlib, no pip dependencies.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
164
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ifly-voiceclone-tts

ifly-voiceclone-tts

从音频样本中克隆声音,并使用科大讯飞的声音复刻API合成语音。两阶段工作流程:训练语音模型,然后合成语音。

设置

  1. 1. 在讯飞控制台创建一个应用,并启用一句话声音复刻服务
  2. 设置环境变量:
bash export IFLYAPPID=yourappid export IFLYAPIKEY=yourapikey export IFLYAPISECRET=yourapisecret

工作流程

阶段1:训练语音模型

步骤1 — 获取训练文本

bash
python3 scripts/voiceclone.py train get-text

这将返回一个包含segId的文本片段列表。你需要录制自己朗读其中一段文本的音频。

步骤2 — 创建训练任务

bash
python3 scripts/voiceclone.py train create --name MyVoice --sex female --engine omni_v1

返回task_id。支持的引擎:

  • - omni_v1 — 多风格通用语音(推荐)

性别:male/female(或1/2)。

步骤3 — 上传音频

bash

本地文件:


python3 scripts/voiceclone.py train upload --task-id 12345 --audio recording.wav --text-id 5001 --seg-id 1

URL:

python3 scripts/voiceclone.py train upload --task-id 12345 --audio-url https://example.com/voice.wav --text-id 5001 --seg-id 1

音频要求:

  • - 格式:WAV/MP3/M4A/PCM
  • 时长:与训练文本匹配(通常3-60秒)
  • 质量:清晰录音,背景噪音最小化

步骤4 — 提交训练

bash
python3 scripts/voiceclone.py train submit --task-id 12345

步骤5 — 检查状态(轮询直到完成)

bash
python3 scripts/voiceclone.py train status --task-id 12345

完成后,返回合成所需的res_id(语音资源ID)。

快速一键训练

bash
python3 scripts/voiceclone.py train quick \
--audio recording.wav \
--name MyVoice \
--sex female \
--wait

此命令将创建→上传→提交→轮询合并为一个命令。--wait每30秒轮询一次,直到训练完成并打印res_id。

阶段2:合成语音

bash

基本合成


python3 scripts/voiceclone.py synth 你好,这是我的声音克隆。 --res-id YOURRESID

带输出文件

python3 scripts/voiceclone.py synth Hello world --res-id YOURRESID --output hello.mp3

从文件读取

python3 scripts/voiceclone.py synth --file article.txt --res-id YOURRESID -o article.mp3

从标准输入读取

echo 测试语音合成 | python3 scripts/voiceclone.py synth --res-id YOURRESID

调整参数

python3 scripts/voiceclone.py synth 快一点 --res-id YOURRESID --speed 70 --volume 80

训练子命令

命令描述
train get-text获取训练文本片段
train create
创建训练任务 | | train upload | 上传音频到任务 | | train submit | 提交任务进行训练 | | train status | 检查训练状态 | | train quick | 一键操作:创建+上传+提交 |

合成选项

标志默认值描述
--res-id(必需)训练得到的语音资源ID
--output / -o
output.mp3 | 输出音频文件路径 | | --format | mp3 | 音频格式:mp3, pcm, speex, opus | | --sample-rate | 16000 | 采样率:8000, 16000, 24000 | | --speed | 50 | 语速0–100(50=正常) | | --volume | 50 | 音量0–100(50=正常) | | --pitch | 50 | 音调0–100(50=正常) |

注意事项

  • - 训练API:HTTP REST接口http://opentrain.xfyousheng.com/voicetrain(基于MD5的令牌认证)
  • 合成API:WebSocket接口wss://cn-huabei-1.xf-yun.com/v1/private/voiceclone(HMAC-SHA256 URL认证)
  • vcn:克隆语音合成时始终为x6clone
  • 引擎omniv1:多风格通用语音,支持中/英/日/韩/俄
  • 训练文本:使用get-text查找可用的文本片段——你必须录制自己朗读相应文本的音频
  • 训练时间:通常2–10分钟,取决于负载
  • 无pip依赖:使用纯Python标准库(内置WebSocket客户端)
  • 环境变量:IFLYAPPID、IFLYAPIKEY、IFLYAPISECRET
  • 输出:将保存音频的绝对路径打印到标准输出
  • API文档:https://www.xfyun.cn/doc/spark/voiceclone.html

常见错误码速查指南 ฅ⁽͑˙˙⁾ฅ

遇到错误先别慌~看看下面的错误码对照表就知道怎么办啦 ✧。・゚:*・

🎤 音色训练接口 - 常见错误码

错误码哎呀!发生了什么?怎么解决呢?
10000token过期啦~时间到惹 (ˊᵕˋ)检查一下token是不是过期了,去刷新一下token吧!
10001
缺少请求头参数哦 (⊙_⊙) | 看看请求头有没有带X-AppId和X-Token,要加上去哦~ | | 10015 | 这个训练任务不是你的呀 (›´ω‹ ) | 这个任务不属于当前应用,检查一下appid对不对呢~ | | 10016 | appid无效啦~ (°°) | 這個appid沒有被授權,聯繫訊飛大大們給你分配一個吧! | | 10017 | 未授权这个训练类型呢 (๑•́ ₃ •̀๑) | 这个训练类型没权限,联系讯飞技术人员帮你开通吧~ | | 10018 | 没有分配训练路数哦 (。•́︿•̀。) | 训练路数授权不够用啦!联系讯飞业务员增加训练路数吧~ | | 10019 | appid授权已过期惹 (╥_╥) | 授权到期啦!联系业务员看看能不能续期吧~ | | 10020 | IP地址没授权呢 (⊙﹏⊙) | 你的IP地址不在白名单里,把IP给讯飞让他们加一下吧! | | 10021 | 没有分配训练次数哦 (´;ω;) | 训练次数用完了!联系讯飞爸爸增加次数吧~ | | 20001 | textId无效或训练文本是空的呀 (°°) | 检查一下textId和textSegId对不对,可以用train get-text命令确认一下哦! | | 20002 | textSegId无效啦 (⊙_⊙) | 这个分段ID不存在呢,用train get-text看看有哪些有效的ID吧! | | 60000 | 训练任务不存在哦 (;ω;) | 看看taskId是不是填错了呀?检查一下再试试吧~ | | 90001 | 请求非法啦 (°°) | 按照接口协议检查一下请求结构对不对哦~ | | 90002 | 请求参数不正确 (´;ω;) | 参数有问题的说...比如textId must not be blank这种,仔细看看错误提示吧! | | 99999 | 系统内部异常啦 (╥_╥) | 这个比较复杂...请联系讯飞技术人员帮你排查一下吧! |

💡 小贴士:如果是权限、授权相关的问题(10016-10021),基本上都需要联系讯飞官方处理哦~可以提交工单:https://console.xfyun.cn/workorder/commit


🎵 音频合成接口 - 常见错误码

错误码哎呀!发生了什么?怎么解决呢?
10009输入数据非法啦 (⊙_⊙)
检查

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ifly-voiceclone-tts-1776185041 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ifly-voiceclone-tts-1776185041 技能

通过命令行安装

skillhub install ifly-voiceclone-tts-1776185041

下载

⬇ 下载 ifly-voiceclone-tts v1.0.0(免费)

文件大小: 13.71 KB | 发布时间: 2026-4-17 15:04

v1.0.0 最新 2026-4-17 15:04
ifly-voiceclone-tts v1.0.0

- Initial release of the iFlytek Voice Clone TTS skill.
- Supports end-to-end workflow: get training text, create task, upload audio, submit for training, poll results, and synthesize speech with the cloned voice.
- Command-line interface for both training and synthesis phases, with detailed subcommands and options.
- Uses only the Python standard library; no external dependencies required.
- Includes detailed documentation and troubleshooting guidance, including error code reference tables.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部