国内可用的文本转语音技能,基于硅基流动(SiliconFlow)API。Use when the user wants to convert text to speech in China without VPN. Supports CosyVoice2-0.5B (multilingual, emotion control, dialect support) and MOSS-TTSD-v0.5 (dual-speaker podcast style). 8 built-in voices, custom voice cloning, speed/gain control. No VPN needed — domestic access, pay via Alipay/WeChat. Requires a SiliconFlow API key.
基于硅基流动(SiliconFlow)API,国内直连,无需翻墙。
支持中英日韩及粤语、四川话等方言,支持情感控制和声音克隆。
音色完整列表 → references/voices.md
使用场景与示例 → references/examples.md
注意:使用自定义音色(声音克隆)需要完成实名认证
日常朗读 / 博客配音 / 多语言 → CosyVoice2-0.5B(推荐首选)
播客对话 / 双人角色扮演 → MOSS-TTSD-v0.5
模型名:FunAudioLLM/CosyVoice2-0.5B
特点:
- 支持中文、英文、日语、韩语
- 支持中国方言:粤语、四川话、上海话、郑州话、长沙话、天津话
- 支持情感控制:快乐、兴奋、悲伤、愤怒等
- 8种内置音色,支持自定义声音克隆
模型名:fnlp/MOSS-TTSD-v0.5
特点:
- 专为对话场景设计,支持双人声音
- 使用 [S1] [S2] 标签区分说话人
- 支持声音克隆(通过 references 字段传入两个音色)
- 适合 AI 播客、角色扮演、对话配音
- 最大 128000 字符输入
bash
curl --location https://api.siliconflow.cn/v1/audio/speech \
--header Authorization: Bearer $SILICONFLOWAPIKEY \
--header Content-Type: application/json \
--data {
model: FunAudioLLM/CosyVoice2-0.5B,
input: 你好,欢迎使用硅基流动语音合成服务。,
voice: FunAudioLLM/CosyVoice2-0.5B:claire,
response_format: mp3,
speed: 1.0,
gain: 0
} \
--output output.mp3
bash
情感指令示例:
你能用高兴的情感说吗?<|endofprompt|>内容...
请用悲伤的语气朗读:<|endofprompt|>内容...
用激动兴奋的语调:<|endofprompt|>内容...
请用平静舒缓的方式:<|endofprompt|>内容...
bash
支持方言:粤语、四川话、上海话、郑州话、长沙话、天津话
bash
curl --location https://api.siliconflow.cn/v1/audio/speech \
--header Authorization: Bearer $SILICONFLOWAPIKEY \
--header Content-Type: application/json \
--data {
model: fnlp/MOSS-TTSD-v0.5,
input: [S1]大家好,欢迎收听今天的节目。[S2]今天我们来聊一聊人工智能的发展。[S1]是的,最近 AI 的进步真的很惊人。,
voice: fnlp/MOSS-TTSD-v0.5:alex,
response_format: mp3,
speed: 1.0,
gain: 0,
max_tokens: 2048
} \
--output podcast.mp3
⚠️ MOSS-TTSD 对话格式规则:
[S1] 标签 = 说话人1
[S2] 标签 = 说话人2
两个标签必须都出现,且交替使用
单人文本请用 CosyVoice2,不要用 MOSS-TTSD
bash
model(必填):
FunAudioLLM/CosyVoice2-0.5B 日常首选
fnlp/MOSS-TTSD-v0.5 双人对话
input(必填):
待转换的文字,最长128000字符
⚠️ 不要在文字前后加多余空格
CosyVoice2 情感控制格式:
情感指令<|endofprompt|>正文内容
MOSS-TTSD 对话格式:
[S1]说话人1的内容[S2]说话人2的内容
voice(必填):
系统预置:FunAudioLLM/CosyVoice2-0.5B:alex 等
自定义克隆:speech:name:xxxxx:xxxxx
详细音色列表见 references/voices.md
response_format(可选,默认 mp3):
mp3 通用,默认推荐
wav 无损,文件较大
opus 高压缩,适合流媒体
pcm 原始数据,需自行处理
sample_rate(可选):
mp3:支持 32000、44100(默认44100)
wav/pcm:支持 8000、16000、24000、32000、44100(默认44100)
opus:仅支持 48000
speed(可选,默认 1.0):
范围:0.25 ~ 4.0
0.75 = 慢速,1.0 = 正常,1.5 = 快速
gain(可选,默认 0):
范围:-10 ~ 10(单位 dB)
正值增大音量,负值减小音量
max_tokens(可选,仅 MOSS-TTSD):
默认 2048,最大 4096
input + output 总计不超过 32k tokens
stream(可选,默认 true):
true = 流式输出(边生成边返回)
false = 等待完整生成后返回
计
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 china-tts-1776116703 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 china-tts-1776116703 技能
skillhub install china-tts-1776116703
文件大小: 8.21 KB | 发布时间: 2026-4-14 10:40