返回顶部
t

text-to-speech-ai文本转语音

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.3.0
安全检测
已通过
154
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

text-to-speech-ai

文本转语音AI — 视频的自然配音与旁白

配音是大多数视频内容的隐形支柱。YouTube解说视频、产品演示、培训模块、社交媒体旁白、播客开场、纪录片解说、在线课程、企业通讯——所有这些都依赖于清晰、引人入胜的声音来演绎脚本。聘请专业配音演员的费用为每分钟成品100-500美元。自行录制需要安静的房间、优质的麦克风以及足够的录制次数(大多数人每段需要5-10次才能听起来自然)。脚本修改后重新录制意味着需要重新安排录制时间。翻译成其他语言意味着需要为每种语言聘请额外的配音演员。NemoVideo的AI文本转语音技术能够生成在随意聆听中与真人旁白难以区分的配音:提问时语调自然上扬、结论时下降,关键词适当强调,句子间有呼吸停顿,与内容匹配的情感调节(公告时兴奋、支持内容时共情、培训时权威),且无论脚本长度如何都能保持一致的品质。一个脚本可生成30多种语言的配音,具有母语发音和符合文化习惯的表达风格——无需录音棚、无需预约、脚本修改时无需重新录制。

使用场景

  1. 1. YouTube解说视频 — 对话式旁白(3-10分钟) — 创作者撰写一篇1500字的脚本,主题为太阳能电池板实际工作原理。NemoVideo生成:温暖、对话式的男声,听起来像一位知识渊博的朋友在解释该主题,技术术语首次出现时自然强调,每个新章节前有短暂停顿以提供认知喘息空间,在惊人事实部分略有能量提升。配音以-6dB混入视频,背景音乐为-20dB,并自动闪避。
  2. 产品视频 — 自信且充满活力(30-90秒) — 一个60秒的产品发布视频需要传达兴奋和自信的声音。NemoVideo:生成充满活力的女声,节奏明快(170字/分钟,标准为150字/分钟),在利益陈述处略微上扬(而且它完全防水),在行动号召处采用命令式语气。声音与产品视频的能量相匹配——而非单调地朗读功能。
  3. 在线课程 — 清晰且耐心(每模块5-30分钟) — 一个12模块的在线课程需要6小时内容中一致的旁白。NemoVideo:所有模块使用相同声音以保持学生熟悉度,根据内容复杂度调整节奏(技术解释时较慢,介绍时正常),对词汇术语进行强调,并在问题后加入自然停顿(请思考一下这个问题……)让学习者消化。6小时内声音一致——以这种成本预约人类配音演员是不可能的。
  4. 多语言广告 — 同一脚本,5种语言(15-30秒) — 一个全球品牌需要同一20秒广告的英语、西班牙语、德语、日语和阿拉伯语配音。NemoVideo:以营销意识本地化翻译脚本(非字面翻译),为每种语言选择符合文化习惯的声音档案(日语选择正式、巴西葡萄牙语选择温暖),调整节奏以适应每种语言相同的视频时长,并提供与同一视觉时间线同步的5条配音音轨。
  5. 播客开场/结尾 — 品牌音频标识(10-30秒) — 一个播客需要一致的开场配音:欢迎收听《每日构建》,在这里我们探索软件工程的艺术。我是你的主持人,今天我们谈论的是……NemoVideo生成的声音成为该节目的音频标识——每集相同的语调、相同的节奏、相同的个性。当开场脚本改变时(《每日构建》第三季……),无需重新预约配音演员即可即时重新生成。

工作原理

第一步 — 撰写脚本

提供要朗读的文本。使用星号标记强调,使用[pause]标记停顿,使用[tone: excited]或[tone: serious]标记情感转变。

第二步 — 选择声音和风格

选择:性别、年龄段、口音、情感语调和语速。在确定前预览多种声音。

第三步 — 生成

bash curl -X POST https://mega-api-prod.nemovideo.ai/api/v1/generate \ -H Authorization: Bearer $NEMO_TOKEN \ -H Content-Type: application/json \ -d { skill: text-to-speech-ai, prompt: 为一段关于神经网络如何学习的3分钟YouTube解说视频生成配音。声音:温暖男声,30多岁,美式英语,对话式且知识渊博(像聪明的朋友在解释事情)。语速:150字/分钟。技术术语首次出现时强调。段落间自然停顿(0.8秒)。在惊人事实部分略微提升能量。混入现有视频,配音-6dB,背景音乐-20dB并闪避。, script: 你是否曾想过计算机是如何学会识别照片中的猫的?[pause]事实证明,答案与你的大脑识别猫的方式惊人地相似……, voice: warm-male-american-30s, speed_wpm: 150, tone: conversational-knowledgeable, pausebetweenparagraphs: 0.8, mixintovideo: true, voice_volume: -6dB, music_volume: -20dB, ducking: true, format: 16:9 }

第四步 — 预览配音和混音

预览单独配音和混入视频后的效果。调整:语速、强调、语调或音量平衡。重新生成特定部分而无需重做整个脚本。

参数

参数类型必填描述
prompt字符串脚本和声音要求
script
字符串 | | 完整脚本文本,包含标记([pause]、emphasis、[tone: x]) | | voice | 字符串 | | 声音档案:性别、年龄、口音、个性 | | speed_wpm | 整数 | | 每分钟字数(默认:150) | | tone | 字符串 | | conversational、authoritative、energetic、calm、empathetic | | language | 字符串 | | en、es、de、fr、ja、zh、ko、ar、pt | | pausebetweenparagraphs | 浮点数 | | 停顿秒数(默认:0.5) | | mixintovideo | 布尔值 | | 将配音渲染到现有视频中(默认:false) | | voice_volume | 字符串 | | -3dB至-12dB(默认:-6dB) | | music_volume | 字符串 | | -16dB至-24dB(默认:-20dB) | | ducking | 布尔值 | | 语音时闪避音乐(默认:true) | | output_format | 字符串 | | mp4(混音)、wav、mp3(仅音频) |

输出示例

json
{
job_id: tts-20260328-001,
status: completed,
script_words: 438,
duration_seconds: 175,
voice: warm-male-american-30s,
speed_wpm: 150,
language: en,
outputs: {
voiceover_audio: {
file: voiceover.wav,
duration: 2:55,
format: WAV 48kHz 24bit
},
mixed_video: {
file: explainer-with-voiceover.mp4,
duration: 2:55,
resolution: 1920x1080,
voice_volume: -6dB,
music_volume: -20dB,
ducking_events: 22
}
}
}

技巧

  1. 1. 每分钟150字是自然的对话节奏 — 130字/分钟感觉缓慢且居高临下。170字/分钟感觉仓促且难以跟上。150字/分钟是大多数内容的理想选择。对于充满活力的广告可增加到160-170字/分钟,对于技术培训可减少到130-140字/分钟。
  2. 谨慎标记强调 — 每隔一个词就强调听起来像机器人。只标记那些改变句子含义的词:它完全防水而不是 完全 防水
  3. 停顿比语速更重要 — 在关键点前停顿0.5-1.0秒能制造期待。问题后的停顿给观众思考时间。停顿让配音感觉人性化;持续不断的说话感觉机械。
  4. 系列中使用相同声音建立熟悉度 — 观众与一致的旁白建立关系。集与集之间改变声音会让人感到迷失。为整个系列锁定一个声音档案。
  5. 闪避让配音在音乐不静音的情况下清晰可闻 — 语音时音乐降低6-8dB

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 text-to-speech-ai-1776017475 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 text-to-speech-ai-1776017475 技能

通过命令行安装

skillhub install text-to-speech-ai-1776017475

下载

⬇ 下载 text-to-speech-ai v1.3.0(免费)

文件大小: 4.81 KB | 发布时间: 2026-4-13 12:20

v1.3.0 最新 2026-4-13 12:20
Version 1.3.0

- No file changes detected in this release.
- No updates to functionality, documentation, or parameters.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部