国内文本转语音 China TTS

基于硅基流动（SiliconFlow）API，国内直连，无需翻墙。
支持中英日韩及粤语、四川话等方言，支持情感控制和声音克隆。

音色完整列表 → references/voices.md
使用场景与示例 → references/examples.md

触发时机

- 把这段文字转成语音
用温柔女声朗读这段内容
生成一个播客对话音频：[S1]... [S2]...
用粤语朗读这段话
帮我克隆这个声音来朗读

前置配置（首次使用）

1. 访问 cloud.siliconflow.cn，手机号注册（国内直连）
进入「API密钥」页面，创建并复制 API Key
在 OpenClaw 中配置：

export SILICONFLOWAPIKEY=sk-xxxxxxxxxxxxxxxx 或写入 ~/.openclaw/.env

注意：使用自定义音色（声音克隆）需要完成实名认证

模型选择

日常朗读 / 博客配音 / 多语言 → CosyVoice2-0.5B（推荐首选）
播客对话 / 双人角色扮演 → MOSS-TTSD-v0.5

CosyVoice2-0.5B（推荐）

模型名：FunAudioLLM/CosyVoice2-0.5B
特点：
- 支持中文、英文、日语、韩语
- 支持中国方言：粤语、四川话、上海话、郑州话、长沙话、天津话
- 支持情感控制：快乐、兴奋、悲伤、愤怒等
- 8种内置音色，支持自定义声音克隆

MOSS-TTSD-v0.5（双人对话专用）

模型名：fnlp/MOSS-TTSD-v0.5
特点：
- 专为对话场景设计，支持双人声音
- 使用 [S1] [S2] 标签区分说话人
- 支持声音克隆（通过 references 字段传入两个音色）
- 适合 AI 播客、角色扮演、对话配音
- 最大 128000 字符输入

API 调用

基础朗读（CosyVoice2，系统预置音色）

bash
curl --location https://api.siliconflow.cn/v1/audio/speech \
--header Authorization: Bearer $SILICONFLOWAPIKEY \
--header Content-Type: application/json \
--data {
model: FunAudioLLM/CosyVoice2-0.5B,
input: 你好，欢迎使用硅基流动语音合成服务。,
voice: FunAudioLLM/CosyVoice2-0.5B:claire,
response_format: mp3,
speed: 1.0,
gain: 0
} \
--output output.mp3

情感控制朗读

bash

在 input 开头加上情感指令，用 <|endofprompt|> 分隔

--data {
model: FunAudioLLM/CosyVoice2-0.5B,
input: 你能用高兴的情感说吗？<|endofprompt|>今天真是太开心了，马上要放假了！,
voice: FunAudioLLM/CosyVoice2-0.5B:diana,
response_format: mp3
}

情感指令示例：

方言朗读

bash

在 input 中自然指定方言，CosyVoice2 会识别

--data {
model: FunAudioLLM/CosyVoice2-0.5B,
input: 请用粤语朗读：<|endofprompt|>多保重，早休息。,
voice: FunAudioLLM/CosyVoice2-0.5B:anna,
response_format: mp3
}

支持方言：粤语、四川话、上海话、郑州话、长沙话、天津话

双人对话（MOSS-TTSD，播客场景）

bash
curl --location https://api.siliconflow.cn/v1/audio/speech \
--header Authorization: Bearer $SILICONFLOWAPIKEY \
--header Content-Type: application/json \
--data {
model: fnlp/MOSS-TTSD-v0.5,
input: [S1]大家好，欢迎收听今天的节目。[S2]今天我们来聊一聊人工智能的发展。[S1]是的，最近 AI 的进步真的很惊人。,
voice: fnlp/MOSS-TTSD-v0.5:alex,
response_format: mp3,
speed: 1.0,
gain: 0,
max_tokens: 2048
} \
--output podcast.mp3

⚠️ MOSS-TTSD 对话格式规则：

[S1] 标签 = 说话人1
[S2] 标签 = 说话人2
两个标签必须都出现，且交替使用
单人文本请用 CosyVoice2，不要用 MOSS-TTSD

使用自定义克隆音色（需实名认证）

bash

先上传参考音频（一次性操作，30秒以内的清晰录音）

curl --location https://api.siliconflow.cn/v1/uploads/audio/voice \
--header Authorization: Bearer $SILICONFLOWAPIKEY \
--form model=FunAudioLLM/CosyVoice2-0.5B \
--form customName=my-voice \
--form text=在一无所知中，梦里的一天结束了，一个新的轮回便会开始 \
--form file=@/path/to/reference.mp3

返回 uri 字段，格式：speech:my-voice:xxxxx:xxxxx

将 uri 作为 voice 参数使用

curl --location https://api.siliconflow.cn/v1/audio/speech \ --header Authorization: Bearer $SILICONFLOWAPIKEY \ --header Content-Type: application/json \ --data { model: FunAudioLLM/CosyVoice2-0.5B, input: 你好，这是我的克隆声音。, voice: speech:my-voice:xxxxx:xxxxx, response_format: mp3 } \ --output cloned.mp3

参数说明

model（必填）：
FunAudioLLM/CosyVoice2-0.5B 日常首选
fnlp/MOSS-TTSD-v0.5 双人对话

input（必填）：
待转换的文字，最长128000字符
⚠️ 不要在文字前后加多余空格
CosyVoice2 情感控制格式：
情感指令<|endofprompt|>正文内容
MOSS-TTSD 对话格式：
[S1]说话人1的内容[S2]说话人2的内容

voice（必填）：
系统预置：FunAudioLLM/CosyVoice2-0.5B:alex 等
自定义克隆：speech:name:xxxxx:xxxxx
详细音色列表见 references/voices.md

response_format（可选，默认 mp3）：
mp3 通用，默认推荐
wav 无损，文件较大
opus 高压缩，适合流媒体
pcm 原始数据，需自行处理

sample_rate（可选）：
mp3：支持 32000、44100（默认44100）
wav/pcm：支持 8000、16000、24000、32000、44100（默认44100）
opus：仅支持 48000

speed（可选，默认 1.0）：
范围：0.25 ~ 4.0
0.75 = 慢速，1.0 = 正常，1.5 = 快速

gain（可选，默认 0）：
范围：-10 ~ 10（单位 dB）
正值增大音量，负值减小音量

max_tokens（可选，仅 MOSS-TTSD）：
默认 2048，最大 4096
input + output 总计不超过 32k tokens

stream（可选，默认 true）：
true = 流式输出（边生成边返回）
false = 等待完整生成后返回

计费说明

计

china-tts国内文本转语音

china-tts

国内文本转语音 China TTS

触发时机

前置配置（首次使用）