返回顶部
a

alicloud-ai-audio-tts阿里云AI语音合成

Generate human-like speech audio with Model Studio DashScope Qwen TTS models (qwen3-tts-flash, qwen3-tts-instruct-flash). Use when converting text to speech, producing voice lines for short drama/news videos, or documenting TTS request/response fields for DashScope.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.4
安全检测
已通过
1,183
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

alicloud-ai-audio-tts

技能名称: alicloud-ai-audio-tts
详细描述:
类别: 提供者

模型工作室 Qwen TTS

验证

bash
mkdir -p output/alicloud-ai-audio-tts
python -m pycompile skills/ai/audio/alicloud-ai-audio-tts/scripts/generatetts.py && echo pycompileok > output/alicloud-ai-audio-tts/validate.txt

通过标准:命令退出码为0,且已生成 output/alicloud-ai-audio-tts/validate.txt。

输出与证据

  • - 将生成的音频链接、示例音频文件和请求负载保存到 output/alicloud-ai-audio-tts/。
  • 每次执行保留一个验证日志。

关键模型名称

使用以下推荐模型之一:

  • - qwen3-tts-flash
  • qwen3-tts-instruct-flash
  • qwen3-tts-instruct-flash-2026-01-26

前提条件

  • - 安装SDK(建议在虚拟环境中安装以避免PEP 668限制):

bash
python3 -m venv .venv
. .venv/bin/activate
python -m pip install dashscope

  • - 在环境中设置 DASHSCOPEAPIKEY,或将 dashscopeapikey 添加到 ~/.alibabacloud/credentials(环境变量优先)。

标准化接口 (tts.generate)

请求

  • - text(字符串,必填)
  • voice(字符串,必填)
  • language_type(字符串,可选;默认为 Auto)
  • instruction(字符串,可选;建议用于指令模型)
  • stream(布尔值,可选;默认为false)

响应

  • - audiourl(字符串,当stream=false时)
  • audiobase64pcm(字符串,当stream=true时)
  • samplerate(整数,24000)
  • format(字符串,根据模式为wav或pcm)

快速入门 (Python + DashScope SDK)

python
import os
import dashscope

优先使用环境变量进行认证:export DASHSCOPEAPIKEY=...

或者使用 ~/.alibabacloud/credentials 并在 [default] 下设置 dashscopeapikey。

北京区域;新加坡区域请使用:https://dashscope-intl.aliyuncs.com/api/v1

dashscope.basehttpapi_url = https://dashscope.aliyuncs.com/api/v1

text = 你好,这是一段简短的语音。
response = dashscope.MultiModalConversation.call(
model=qwen3-tts-instruct-flash,
apikey=os.getenv(DASHSCOPEAPI_KEY),
text=text,
voice=Cherry,
language_type=English,
instruction=温暖平静的语调,语速稍慢。,
stream=False,
)

audio_url = response.output.audio.url
print(audio_url)

流式传输说明

  • - stream=True 返回24kHz的Base64编码PCM数据块。
  • 解码数据块并播放或拼接成pcm缓冲区。
  • 当流结束时,响应包含 finish_reason == stop。

操作指导

  • - 保持请求简洁;如果遇到大小或超时错误,将长文本拆分为多次调用。
  • 使用与文本一致的 languagetype 以改善发音。
  • 仅在需要明确的风格/语调控制时使用 instruction。
  • 通过 (text, voice, languagetype) 进行缓存以避免重复费用。

输出位置

  • - 默认输出:output/alicloud-ai-audio-tts/audio/
  • 使用 OUTPUT_DIR 覆盖基础目录。

工作流程

1) 确认用户意图、区域、标识符,以及操作是只读还是修改性。
2) 首先运行一个最小的只读查询以验证连接和权限。
3) 使用明确的参数和限定范围执行目标操作。
4) 验证结果并保存输出/证据文件。

参考资料

  • - 参数映射和流式传输示例请参考 references/api_reference.md。
  • 实时模式由 skills/ai/audio/alicloud-ai-audio-tts-realtime/ 提供。
  • 语音克隆/设计分别由 skills/ai/audio/alicloud-ai-audio-tts-voice-clone/ 和 skills/ai/audio/alicloud-ai-audio-tts-voice-design/ 提供。
  • - 来源列表:references/sources.md

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 alicloud-ai-audio-tts-1776419937 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 alicloud-ai-audio-tts-1776419937 技能

通过命令行安装

skillhub install alicloud-ai-audio-tts-1776419937

下载

⬇ 下载 alicloud-ai-audio-tts v1.0.4(免费)

文件大小: 5.79 KB | 发布时间: 2026-4-17 18:27

v1.0.4 最新 2026-4-17 18:27
batch publish from alicloud-skills on 2026-03-11

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部