返回顶部
c

china-tts国内文本转语音

国内可用的文本转语音技能,基于硅基流动(SiliconFlow)API。Use when the user wants to convert text to speech in China without VPN. Supports CosyVoice2-0.5B (multilingual, emotion control, dialect support) and MOSS-TTSD-v0.5 (dual-speaker podcast style). 8 built-in voices, custom voice cloning, speed/gain control. No VPN needed — domestic access, pay via Alipay/WeChat. Requires a SiliconFlow API key.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
184
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

china-tts

国内文本转语音 China TTS

基于硅基流动(SiliconFlow)API,国内直连,无需翻墙。
支持中英日韩及粤语、四川话等方言,支持情感控制和声音克隆。

音色完整列表 → references/voices.md
使用场景与示例 → references/examples.md

触发时机

  • - 把这段文字转成语音
  • 用温柔女声朗读这段内容
  • 生成一个播客对话音频:[S1]... [S2]...
  • 用粤语朗读这段话
  • 帮我克隆这个声音来朗读

前置配置(首次使用)

  1. 1. 访问 cloud.siliconflow.cn,手机号注册(国内直连)
  2. 进入「API密钥」页面,创建并复制 API Key
  3. 在 OpenClaw 中配置:
export SILICONFLOWAPIKEY=sk-xxxxxxxxxxxxxxxx 或写入 ~/.openclaw/.env

注意:使用自定义音色(声音克隆)需要完成实名认证



模型选择

日常朗读 / 博客配音 / 多语言 → CosyVoice2-0.5B(推荐首选)
播客对话 / 双人角色扮演 → MOSS-TTSD-v0.5

CosyVoice2-0.5B(推荐)

模型名:FunAudioLLM/CosyVoice2-0.5B
特点:
- 支持中文、英文、日语、韩语
- 支持中国方言:粤语、四川话、上海话、郑州话、长沙话、天津话
- 支持情感控制:快乐、兴奋、悲伤、愤怒等
- 8种内置音色,支持自定义声音克隆

MOSS-TTSD-v0.5(双人对话专用)

模型名:fnlp/MOSS-TTSD-v0.5
特点:
- 专为对话场景设计,支持双人声音
- 使用 [S1] [S2] 标签区分说话人
- 支持声音克隆(通过 references 字段传入两个音色)
- 适合 AI 播客、角色扮演、对话配音
- 最大 128000 字符输入



API 调用

基础朗读(CosyVoice2,系统预置音色)

bash
curl --location https://api.siliconflow.cn/v1/audio/speech \
--header Authorization: Bearer $SILICONFLOWAPIKEY \
--header Content-Type: application/json \
--data {
model: FunAudioLLM/CosyVoice2-0.5B,
input: 你好,欢迎使用硅基流动语音合成服务。,
voice: FunAudioLLM/CosyVoice2-0.5B:claire,
response_format: mp3,
speed: 1.0,
gain: 0
} \
--output output.mp3

情感控制朗读

bash

在 input 开头加上情感指令,用 <|endofprompt|> 分隔


--data {
model: FunAudioLLM/CosyVoice2-0.5B,
input: 你能用高兴的情感说吗?<|endofprompt|>今天真是太开心了,马上要放假了!,
voice: FunAudioLLM/CosyVoice2-0.5B:diana,
response_format: mp3
}

情感指令示例:

你能用高兴的情感说吗?<|endofprompt|>内容...
请用悲伤的语气朗读:<|endofprompt|>内容...
用激动兴奋的语调:<|endofprompt|>内容...
请用平静舒缓的方式:<|endofprompt|>内容...

方言朗读

bash

在 input 中自然指定方言,CosyVoice2 会识别


--data {
model: FunAudioLLM/CosyVoice2-0.5B,
input: 请用粤语朗读:<|endofprompt|>多保重,早休息。,
voice: FunAudioLLM/CosyVoice2-0.5B:anna,
response_format: mp3
}

支持方言:粤语、四川话、上海话、郑州话、长沙话、天津话

双人对话(MOSS-TTSD,播客场景)

bash
curl --location https://api.siliconflow.cn/v1/audio/speech \
--header Authorization: Bearer $SILICONFLOWAPIKEY \
--header Content-Type: application/json \
--data {
model: fnlp/MOSS-TTSD-v0.5,
input: [S1]大家好,欢迎收听今天的节目。[S2]今天我们来聊一聊人工智能的发展。[S1]是的,最近 AI 的进步真的很惊人。,
voice: fnlp/MOSS-TTSD-v0.5:alex,
response_format: mp3,
speed: 1.0,
gain: 0,
max_tokens: 2048
} \
--output podcast.mp3

⚠️ MOSS-TTSD 对话格式规则:

[S1] 标签 = 说话人1
[S2] 标签 = 说话人2
两个标签必须都出现,且交替使用
单人文本请用 CosyVoice2,不要用 MOSS-TTSD

使用自定义克隆音色(需实名认证)

bash

先上传参考音频(一次性操作,30秒以内的清晰录音)


curl --location https://api.siliconflow.cn/v1/uploads/audio/voice \
--header Authorization: Bearer $SILICONFLOWAPIKEY \
--form model=FunAudioLLM/CosyVoice2-0.5B \
--form customName=my-voice \
--form text=在一无所知中,梦里的一天结束了,一个新的轮回便会开始 \
--form file=@/path/to/reference.mp3

返回 uri 字段,格式:speech:my-voice:xxxxx:xxxxx

将 uri 作为 voice 参数使用

curl --location https://api.siliconflow.cn/v1/audio/speech \ --header Authorization: Bearer $SILICONFLOWAPIKEY \ --header Content-Type: application/json \ --data { model: FunAudioLLM/CosyVoice2-0.5B, input: 你好,这是我的克隆声音。, voice: speech:my-voice:xxxxx:xxxxx, response_format: mp3 } \ --output cloned.mp3

参数说明

model(必填):
FunAudioLLM/CosyVoice2-0.5B 日常首选
fnlp/MOSS-TTSD-v0.5 双人对话

input(必填):
待转换的文字,最长128000字符
⚠️ 不要在文字前后加多余空格
CosyVoice2 情感控制格式:
情感指令<|endofprompt|>正文内容
MOSS-TTSD 对话格式:
[S1]说话人1的内容[S2]说话人2的内容

voice(必填):
系统预置:FunAudioLLM/CosyVoice2-0.5B:alex 等
自定义克隆:speech:name:xxxxx:xxxxx
详细音色列表见 references/voices.md

response_format(可选,默认 mp3):
mp3 通用,默认推荐
wav 无损,文件较大
opus 高压缩,适合流媒体
pcm 原始数据,需自行处理

sample_rate(可选):
mp3:支持 32000、44100(默认44100)
wav/pcm:支持 8000、16000、24000、32000、44100(默认44100)
opus:仅支持 48000

speed(可选,默认 1.0):
范围:0.25 ~ 4.0
0.75 = 慢速,1.0 = 正常,1.5 = 快速

gain(可选,默认 0):
范围:-10 ~ 10(单位 dB)
正值增大音量,负值减小音量

max_tokens(可选,仅 MOSS-TTSD):
默认 2048,最大 4096
input + output 总计不超过 32k tokens

stream(可选,默认 true):
true = 流式输出(边生成边返回)
false = 等待完整生成后返回



计费说明

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 china-tts-1776116703 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 china-tts-1776116703 技能

通过命令行安装

skillhub install china-tts-1776116703

下载

⬇ 下载 china-tts v1.0.2(免费)

文件大小: 8.21 KB | 发布时间: 2026-4-14 10:40

v1.0.2 最新 2026-4-14 10:40
修复安全扫描问题:元数据格式改为单行JSON,声明SILICONFLOW_API_KEY

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部