返回顶部
a

audioclaw-skills-voice-reply语音回复技能

Use when AudioClaw Skills, Feishu, or Lark needs to send AudioClaw voice replies with runtime-switchable voice_id, emotion preset, or speaking style, including per-message speaker overrides, voice-family emotion routing, cache reuse, and safe fallback when a requested voice is unavailable.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
194
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

audioclaw-skills-voice-reply

AudioClaw 技能 语音回复

使用时机

当 AudioClaw 已有最终回复文本,且需要可按需变更的语音版本时使用此技能。

常见触发场景:

  • - 聊天机器人需要用不同语气回复,如 平静、温暖、愉快、严肃 或 促销
  • 呼叫者希望在单次请求中切换 voiceid 或 voicefamily,无需修改代码
  • 同一 AudioClaw 工作流需同时支持免费语音和付费或自定义语音
  • 当请求的语音对当前密钥不可用时,运行时仍能正常工作
  • 用户已说过以后一直给我发语音,AudioClaw 需在后续轮次记住此偏好
  • AudioClaw 需要工作区本地文件,以及将其作为飞书语音消息发送的稳定方式
  • 呼叫者已有克隆的 AudioClaw voice_id(如 vc-...),希望运行时直接使用,不先回退

请勿将此技能用于 ASR 输入或长文本摘要生成。

工作流程

  1. 1. 从最终面向用户的文本开始。不传递隐藏推理或原始 markdown 表格。
  2. 构建 AudioClaw 语音请求,包含:
- text - 可选 scene - 可选 voice_id - 可选 voice_family - 可选 emotion - 可选 speed、pitch、volume
  1. 3. 运行 scripts/openclawvoiceswitchboard.py
- 对于飞书或 Lark 上的 AudioClaw,优先使用 scripts/picoclawvoicereply.py
  1. 4. 让脚本按以下顺序解析请求:
- 精确匹配 voice_id - voice_family 加匹配的情绪变体 - 场景加情绪预设 - 已验证的回退语音 - 重要:如果精确的 voice_id 是克隆类型 ID(如 vc-...),此技能现在会先直接尝试该 ID,即使它不在内置官方语音目录中
  1. 5. 如果存在 preference_key,脚本可记住:
- reply_mode - 默认 voice_id - 默认 emotion - 默认 scene
  1. 6. 如果结果需通过 AudioClaw 媒体上传发送,传递:
- --out 在 AudioClaw 工作区内 - --openclaw-workspace-root 指向工作区根目录 - --delivery-profile feishu_voice(当下游通道偏好 .ogg/.opus 时) - 可选 --chmod 644(如需明确指定,此技能现在默认使用 0644) - 如果设置了 --openclaw-workspace-root 但省略了 --out,此技能现在会自动写入 workspace/state/audio/
  1. 7. 在 AudioClaw 中使用返回的 JSON 清单:
- 对于飞书上的 AudioClaw,优先使用 scripts/picoclawvoicereply.py - 让包装器直接发送飞书音频消息 - 不通过 message 工具发送本地路径或 MEDIA:... 行 - 仅在有意选择不直接发送飞书时使用 send_file - 记录 trace_id - 如需,保留已解析的语音选择供下一轮使用
  1. 8. 如果请求的语音对当前密钥不可用,让回退生效,除非用户明确要求严格失败。
  2. 如果希望 AudioClaw 记住克隆语音,可:
- 使用 --set-default-voice-id vc-... 将其设置为用户的默认语音 - 或使用 --register-clone-voice-id vc-... 显式注册

语音发现

当 AudioClaw 需要找到可用语音或确认 voice_id 时,按此顺序操作:

  1. 1. 先检查本地目录:
- 运行 python3 scripts/openclawvoiceswitchboard.py --list-voices - 用于快速查找内置语音、已知情绪变体和已本地注册的克隆语音
  1. 2. 如果用户询问官方公开语音列表、套餐可用性或本地未找到的语音,检查官方语音页面:
- https://senseaudio.cn/docs/voice_api - 页面标题:API 音色服务说明
  1. 3. 当 AudioClaw 需要确认以下内容时,优先使用官方页面:
- voice_id 是免费、VIP 还是 SVIP 语音 - 指定说话人是否有多个情绪变体 - 请求是否需要精选语音购买或自定义语音授权
  1. 4. 找到可能的 voice_id 后,仍让运行时在合成时验证访问权限,因为账户权限可能因密钥而异。

实用规则:

  • - 本地 --list-voices 是运行时的首选目录。
  • https://senseaudio.cn/docs/voiceapi 是官方语音名称、voiceid 和套餐等级说明的权威参考。

AudioClaw 规则

当此技能在 AudioClaw 中用于飞书或 Lark 语音回复时:

  1. 1. 运行 scripts/picoclawvoicereply.py
  2. 让包装器将生成的 .ogg/.opus 文件上传到飞书,并以 msgtype=audio 发送
  3. 除非显式传递了 --skip-direct-send,否则不调用该音频的 sendfile 工具
  4. 不使用本地路径或 MEDIA:... 引用调用 message 工具。AudioClaw 会将其作为纯文本发送
  5. 音频发送后,优先不发送额外文本确认
  6. 如果宿主运行时仍需要一条最终助手消息来完成本轮,发送一句简短的自然中文,如我已经用语音回复你了。,而不是让本轮为空
  7. 仅将 media_reference 用作调试元数据或未来 AudioClaw 兼容性数据

此规则很重要,因为此 AudioClaw 环境不会将 MEDIA:... 渲染为媒体,而通用的 sendfile 工具会将飞书语音笔记作为普通文件而非 audio 消息发送。这里的可靠路径是直接飞书上传加 msgtype=audio。

运行时模型

官方公开 TTS API 暴露:

  • - voicesetting.voiceid
  • voicesetting.speed
  • voicesetting.vol
  • voicesetting.pitch
  • audiosetting.format
  • audiosetting.samplerate
  • 一个 HTTP 端点,两种模式:

- 非流式,stream=false
- SSE,stream=true

重要约束:

  • - 公开 TTS API 文档未暴露独立的 emotion 请求字段
  • 因此情绪切换通过选择匹配的 voiceid(如存在)或保持语音并调整 speed / pitch / vol 来处理
  • 此技能默认以非流式模式请求最终文件 TTS,因为 AudioClaw 只需要完成的文件,这避免了流式组装边缘情况
  • 对于此服务端 HTTP TTS 路径,官方文档仍使用 Authorization: Bearer APIKEY。此技能不需要生成的 Public Key
  • 如果请求的 voiceid 看起来像克隆 ID(如 vc-...),此技能现在会自动将 TTS 路由到 SenseAudio-TTS-1.5,并在清单中记录 audio.modelused

API 密钥查找

此技能现在再次将 SENSEAUDIOAPIKEY 视为默认 API 密钥来源。

运行时规则:

  • - 如果宿主应用注入的 SENSEAUDIOAPIKEY 是 AudioClaw 登录令牌(如 v2.public...),共享引导程序会在 TTS 开始前将其替换为 ~/.audioclaw/workspace/state/senseaudiocredentials.json 中的真实 sk-... 值
  • --api-key-env 仍然有效,但默认运行时路径是 SENSEAUDIOAPI_KEY

如果需要在多种情绪下使用完全相同的说话人音色,请使用购买的多变体语音系列或授权的自定义语音。否则此技能将使用最佳可用语音和调音来近似请求的情绪。

请求契约

最小 JSON 请求:

json
{
text: 我们已经收到你的需求,今天下午会把结果发给你。,
scene: assistant,
emotion: calm
}

完整请求:

json
{
text: 新品今晚八点开售,现在下单还有首发赠品。,
scene: sales,
voiceid: male0027_b,
voicefamily: male0027,
emotion: promo,
speed: 1.08,
pitch: 1,
volume: 1.05,
audio_format: mp3,
sample_rate: 32000,
preference_key:

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 audioclaw-skills-voice-reply-1776348303 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 audioclaw-skills-voice-reply-1776348303 技能

通过命令行安装

skillhub install audioclaw-skills-voice-reply-1776348303

下载

⬇ 下载 audioclaw-skills-voice-reply v1.0.1(免费)

文件大小: 25.3 KB | 发布时间: 2026-4-17 14:08

v1.0.1 最新 2026-4-17 14:08
AudioClaw voice reply skill adds direct support for cloned voices, improved voice_id handling, and updates for API key management.

- Supports direct use of cloned voice IDs (e.g., vc-...) without voice catalog fallback.
- Adds clear workflow for registering and remembering cloned voices in AudioClaw.
- Improves voice discovery: encourages local catalog lookup first, official web catalog for tier confirmation.
- Clarifies Feishu/Lark delivery flow and confirmation message guideline.
- Changes API key lookup: now defaults to SENSEAUDIO_API_KEY; integration with AudioClaw credential replacement is explained.
- Workflow and rules updated for more robust handling of custom and package voice variants.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部