返回顶部
c

cosyvoice3轻松语音3

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
660
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

cosyvoice3

CosyVoice3 TTS

在 macOS Apple Silicon 上使用阿里巴巴 CosyVoice3 的本地文本转语音系统。

概述

CosyVoice3 是一个基于大语言模型的先进 TTS 系统,支持:

  • - 9 种语言:中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语
  • 18 种以上中文方言:粤语、四川话、东北话、上海话等
  • 零样本语音克隆:从 3-10 秒音频中克隆任意声音
  • 跨语言合成:用英语声音说中文,反之亦然
  • 细粒度控制:通过文本标签控制情感、语速、音量

前提条件

  • - 配备 Apple Silicon (M1/M2/M3) 的 macOS
  • Python 3.10
  • 已安装 Conda
  • 约 5GB 磁盘空间用于模型

安装

运行安装脚本:

bash
cd /Users/lhz/.openclaw/workspace/skills/cosyvoice3/scripts
bash install.sh

此操作将:

  1. 1. 创建 conda 环境 cosyvoice
  2. 安装 PyTorch(Apple Silicon 的 CPU 版本)
  3. 安装 CosyVoice 依赖项
  4. 下载 Fun-CosyVoice3-0.5B 模型(约 2GB)

使用方法

快速开始 - 基础 TTS

重要:CosyVoice3 需要在参考文本中添加 <|endofprompt|> 标记!

bash
cd /Users/lhz/.openclaw/workspace/cosyvoice3-repo
export PATH=$HOME/miniconda3/bin:$PATH
conda activate cosyvoice

python -c
import sys
sys.path.append(third_party/Matcha-TTS)
from cosyvoice.cli.cosyvoice import AutoModel
import torchaudio

cosyvoice = AutoModel(modeldir=pretrainedmodels/Fun-CosyVoice3-0.5B)
for i, j in enumerate(cosyvoice.inferencezeroshot(
你好,这是CosyVoice3语音合成测试。,
希望你以后能够做的比我还好呦。<|endofprompt|>, # 注意这个标记!
asset/zeroshotprompt.wav
)):
torchaudio.save(output.wav, j[ttsspeech], cosyvoice.samplerate)
print(已生成: output.wav)

使用 TTS 脚本

从文本生成语音:

bash
cd /Users/lhz/.openclaw/workspace/skills/cosyvoice3/scripts
conda activate cosyvoice

使用默认语音的基础 TTS

python tts.py 你好,这是一个测试。

使用自定义参考音频进行语音克隆

python tts.py 你好,这是克隆的声音。 --reference /path/to/reference.wav

跨语言(英语文本,中文语音)

python tts.py Hello, this is cross-lingual synthesis. --reference asset/zeroshotprompt.wav --lang en

带语速控制

python tts.py 这是一段快速的语音。 --speed 1.5

保存到指定路径

python tts.py 你好。 --output ~/Desktop/greeting.wav

可用资源

cosyvoice3-repo/asset/ 中的参考音频文件:

  • - zeroshotprompt.wav - 默认中文女声
  • crosslingualprompt.wav - 用于跨语言的英语提示

高级功能

语音克隆

从 3-10 秒的参考音频中克隆声音:

python
from cosyvoice.cli.cosyvoice import AutoModel
import torchaudio

cosyvoice = AutoModel(modeldir=pretrainedmodels/Fun-CosyVoice3-0.5B)

克隆声音并生成

for i, j in enumerate(cosyvoice.inferencezeroshot( 这是克隆后的声音在说话。, 参考文本转录, /path/to/reference.wav )): torchaudio.save(cloned.wav, j[ttsspeech], cosyvoice.samplerate)

细粒度控制

使用特殊标签控制韵律:

python

添加笑声


他突然[laughter]笑了起来[laughter]。

添加呼吸声

他说完这句话[breath],深吸一口气。

强烈强调

这是非常重要的。

组合使用

在面对挑战时,他展现了非凡的勇气智慧[breath]。

方言支持

使用指令模式处理方言:

python
cosyvoice = AutoModel(modeldir=pretrainedmodels/CosyVoice-300M-Instruct)

for i, j in enumerate(cosyvoice.inference_instruct(
你好,这是测试语音。,
中文男,
用四川话说这句话<|endofprompt|>
)):
torchaudio.save(sichuan.wav, j[ttsspeech], cosyvoice.samplerate)

故障排除

模型未找到

如果遇到模型未找到错误,请手动下载模型:

bash
cd /Users/lhz/.openclaw/workspace/cosyvoice3-repo
export PATH=$HOME/miniconda3/bin:$PATH
conda activate cosyvoice

python -c
from modelscope import snapshot_download
snapshotdownload(FunAudioLLM/Fun-CosyVoice3-0.5B-2512, localdir=pretrained_models/Fun-CosyVoice3-0.5B)

内存问题

对于长文本,请拆分为句子:

python
text = 很长的文本...
sentences = text.split(。)
for sent in sentences:
if sent.strip():
# 处理每个句子

音频格式

参考音频要求:

  • - 格式:WAV、MP3
  • 采样率:16kHz 以上(自动重采样)
  • 时长:最佳 3-10 秒
  • 内容:清晰的语音,最小化背景噪音

资源

脚本

  • - install.sh - macOS 安装脚本
  • tts.py - 带 CLI 界面的主 TTS 脚本
  • download_models.py - 下载预训练模型

参考

模型文件

位于 cosyvoice3-repo/pretrained_models/:

  • - Fun-CosyVoice3-0.5B/ - 主模型(推荐)
  • CosyVoice2-0.5B/ - 先前版本
  • CosyVoice-300M/ - 轻量模型
  • CosyVoice-300M-SFT/ - SFT 版本
  • CosyVoice-300M-Instruct/ - 指令版本

注意事项

  • - 首次推理约需 30 秒(模型预热)
  • 后续推理速度更快
  • Apple Silicon 使用 CPU 模式(无 CUDA)
  • M 系列芯片上的 RTF(实时因子)约 0.3-0.5
  • 首次下载后模型文件会本地缓存

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 cosyvoice3-macos-1776419987 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 cosyvoice3-macos-1776419987 技能

通过命令行安装

skillhub install cosyvoice3-macos-1776419987

下载

⬇ 下载 cosyvoice3 v1.0.0(免费)

文件大小: 8.1 KB | 发布时间: 2026-4-17 20:08

v1.0.0 最新 2026-4-17 20:08
Initial release: Alibaba CosyVoice3 TTS for macOS Apple Silicon. Supports Chinese, English, 18+ dialects, zero-shot voice cloning.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部