VoiceMaster

目标

为短视频文案生成可直接交付的 AI 配音结果。优先输出单个 mp3 文件；无法本地合并时，返回分段下载卡片并明确片段顺序。使用 SenseAudio 官方接口文档：

- https://senseaudio.cn/docs/api-key
https://senseaudio.cn/docs/texttospeechapi
https://senseaudio.cn/docs/voiceapi

先检查环境变量 SENSEAUDIOAPIKEY。如果已经存在，直接使用；如果不存在，再提示用户提供 API Key 或先在终端设置环境变量。不要把密钥写进 SKILL.md、脚本源码或提交记录。

内置音色映射

始终优先使用用户显式指定的 voice_id。未指定时，根据文案语气、角色设定和平台风格，从下表选择最贴近的音色，并在同一项目内保持角色映射稳定。

在当前 SenseAudio key 权限有限时，仅默认使用已确认可用的以下音色：

- child0001b：可爱萌娃，平稳
male0004a：儒雅道长，平稳
male0018a：沙哑青年，深情

不要默认选择未确认授权的 VIP / SVIP 音色。若接口返回 403 no access to the specified voice，优先回退到 child0001b，而不是重复尝试未授权音色。

yaml
VOICE_MAP:
温柔女声: child0001b
知性旁白: male0004a
新闻主播: male0004a
热血男声: male0018a
沉稳纪录片: male0004a
青春活力: child0001b
电商促销: child0001b
儿童陪伴: child0001b
悬疑低语: male0018a
治愈故事: child0001b
儒雅道长: male0004a
沙哑青年: male0018a
可爱萌娃-平稳: child0001b

多角色文案处理规则：

1. 识别角色名:、旁白:、主持人: 等显式说话人标记。
为每个角色建立一次性 role -> voiceid 映射，后续所有分段复用同一映射。
若当前 key 可使用的音色有限，允许多个角色共用同一音色，优先保证生成成功，不强行制造音色差异。
SenseAudio 单次请求只能使用一个 voiceid，所以多角色脚本不能整段一次性提交。
多角色脚本必须先按角色台词切分为多个子片段，每个子片段只允许一个说话人。
每个角色子片段分别调用一次 TTS，生成多个小段音频后再按原始顺序拼接。
如果没有按角色逐段请求，而是把混合台词整段提交，那么最终听感会接近全员同一音色，这不算多角色配音成功。

输入整理

在执行前整理以下信息：

1. 文案全文。
目标风格，例如温柔、新闻感、励志、悬疑、剧情口播、带货。
角色数量与角色关系。
语速 speed。未指定时按风格估算，但必须限制在 0.5 到 2.0。
音高 pitch。未指定时使用 0。
输出文件名和输出文件路径。未指定时使用 voicemaster-output.mp3。

默认参数：

yaml
format: mp3
sample_rate: 44100
speed: 1.0
pitch: 0

对话草稿流程

如果用户给的是完整、可直接配音的剧本，按现有流程直接整理角色、分段和音色即可。

如果用户提供的是以下任一输入形态，不要直接开始 TTS，先生成一版可编辑的对话草稿：

1. 只有主题、场景、人物关系或情绪方向。
只有零散设定，没有明确的角色台词格式。
用户明确表示你先帮我写一版先出个对话先整理成剧本。
输入里角色边界、说话人、段落结构不清楚，无法直接安全切分成 TTS 片段。

执行顺序：

1. 先根据用户主题生成一版短视频可用的对话草稿，默认补齐角色名、台词顺序、必要旁白和基础节奏。
输出草稿后，明确询问用户是否需要修改；不要在用户确认前直接生成音频。
如果用户提出修改意见，就继续按意见改草稿，并再次等待确认。
只有当用户明确表示不需要修改就这样开始生成生成吧等确认含义时，才进入配音阶段。
进入配音阶段后，把最终确认版草稿视为正式剧本，再执行角色映射、分段、TTS 和拼接。

草稿要求：

1. 优先写成清晰的逐行对话格式，例如旁白：...、角色A：...、角色B：...。
单轮草稿先求结构清楚、节奏自然、便于后续分段，不追求一次写到最长。
如果用户没有指定时长，默认按短视频口播场景控制在精简可配音的长度。
如果用户没有指定角色数量，默认生成 2 到 3 个角色或旁白 + 角色结构，并在草稿里写清楚。
草稿阶段可以顺带给出一句简短说明，例如确认后我再开始生成配音。

短视频对话草稿模板

以下模板用于先写草稿、再确认、后配音的阶段。优先根据用户主题、平台风格和情绪目标，从中选择最贴近的一套，再按用户需求改写。

模板 1：旁白 + 人物冲突

适用场景：

1. 情绪故事。
反转剧情。
成长、遗憾、和解类短视频。

推荐结构：

1. 开场一句钩子。
角色 A 抛出矛盾。
角色 B 回应并升级情绪。
旁白收束或反转。

草稿骨架：

text
旁白：那天以后，我才知道，有些话说晚了，就真的来不及了。
角色A：你当时为什么什么都不说？
角色B：不是我不想说，是我说了，你也不会信。
角色A：可你连试都没试过。
旁白：他们都以为自己受了委屈，却没人发现，对方也在硬撑。
角色B：如果再来一次，我不会再让你一个人扛。
旁白：有些误会，解开只要一句话；可有些人，等一句话等了一辈子。

模板 2：双人轻松聊天

适用场景：

1. 日常段子。
朋友互怼。
轻松种草。
情侣、小剧场。

推荐结构：

1. 用一句生活化问题开场。
两人来回两到三轮。
结尾留包袱或结论。

草稿骨架：

text
角色A：你有没有发现，现在的人嘴上说早睡，手上却在刷到凌晨两点。
角色B：别骂了，我刚把再看五分钟演成了两个小时。
角色A：最离谱的是，第二天还要怪闹钟不懂事。
角色B：闹钟已经很努力了，是我的手不愿意放下手机。
角色A：所以问题到底出在哪？
角色B：出在我每次都以为，下一个视频一定不精彩。

模板 3：带货口播对话

适用场景：

1. 商品种草。
直播切片。
促销转化。
用户痛点引导。

推荐结构：

1. 先抛用户痛点。
角色提出质疑。
另一角色给出解决方案。
用结果感和行动指令收尾。

草稿骨架：

text
旁白：如果你也总觉得早上出门时间不够，那这段一定要看完。
角色A：我最怕的就是化妆麻烦、搭配麻烦，最后一着急全乱了。
角色B：那你就别再用一堆步骤堆时间了，先把最影响出门效率的那一步换掉。
角色A：问题是，便宜的怕不好用，好用的又怕太贵。
角色B：所以才推荐这种上手快、效果稳、价格也好接受的款，赶时间的时候特别省心。
旁白：想要省时间、少踩坑、直接提升出门效率，这种才是更适合日常复购的选择。

模板 4：知识解说对话

适用场景：

1. 冷知识。
科普。
职场技巧。
学习方法。

推荐结构：

1. 用一个误区或问题开头。
提问角色代表普通用户。
解说角色给出拆解。
结尾给出一句可执行建议。

草稿骨架：

text
旁白：很多人以为，做事效率低只是因为不够努力，但真相往往不是这样。
角色A：那到底卡在哪？我每天也没闲着。
角色B：问题不一定是你不努力，而是你总在用切来切去的方式消耗注意力。
角色A：所以我不是事太多，是一直在被打断？
角色B：对。

VoiceMasterAI配音大师

VoiceMaster

VoiceMaster

目标

内置音色映射

输入整理