返回顶部
s

senseaudio-let-claw-talk语音爪助手

当用户希望把 AudioClaw 变成一个持续监听、开口就说、停顿就回答的本机语音助手时使用。这个 skill 会在 macOS 上启动常驻监听流程,默认优先使用内置 Swift 录音器减少 Python 音频依赖;用户语音通过 SenseAudio ASR 转文字,再发给 audioclaw agent,并用 SenseAudio TTS 或系统 say 读回结果。它保留可选的 WeSpeaker 后台服务和流式 TTS,但导出的默认配置不会依赖这些可选环境。适合免手打问答、桌面语音助理、连续语音控制和原型演示。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
98
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

senseaudio-let-claw-talk

SenseAudio-Let-Claw-Talk

当用户想要下面这些能力时,使用这个 skill:

  • - 一直开着麦克风,开口就能和 AudioClaw 对话
  • 不想切换到专门的 CLI 或 TUI,只要功能能跑
  • 想在本机做持续语音问答、语音助手、免手打交互
  • 想继续使用已经调通的 SenseAudio ASR 和 TTS
  • 想按需开启 WeSpeaker 声纹验证,把后台模型常驻起来减少冷启动

高优先级触发说法:

  • - 打开持续语音助手
  • 开启持续监听语音模式
  • 打开免手打语音模式
  • 进入本机语音助手模式
  • 帮我打开一直监听的语音助手
  • 用 $senseaudio-let-claw-talk 启动语音助手

不适合:

  • - 只想转写单条语音
  • 只想把一段文字转成语音
  • 想做飞书消息内的一次性语音收发

默认行为

这个 skill 默认:

  • - 在 macOS 本机启动持续监听
  • 默认优先使用内置 Swift 录音器,减少对 Python 音频依赖的要求
  • 如果想切回 Python 流式录音,再手动指定:
- sounddevice - webrtcvad - numpy
  • - 用当前 skill 内置的 SenseAudio ASR 客户端做语音识别
  • 用 audioclaw agent 跑对话
  • 用当前 skill 内置的 SenseAudio TTS 客户端做语音播报,或用系统 say 直接播报
  • 导出的默认设置会先关闭 SenseAudio 流式 TTS,优先走整段播报,减少对 miniaudio 和流式链路调优的依赖
  • 如果用户后面想启用流式 TTS,可以再手动打开
  • 当前 skill 内置了常用音色目录和克隆音色登记,不依赖其他语音 skill
  • 默认开启状态提示音
  • 每次重新进入监听前,会先播一个轻提示音,告诉用户现在开始收音
  • 默认启动时会先做一次自检:
- 检查 Python 解释器 - 检查录音后端依赖 - 检查 ASR / TTS API key - 检查当前音色是否真的可用
  • - 默认唤醒词是 贾维斯
  • 默认睡眠词是 贾维斯休息
  • 默认唤醒保持时间是 90 秒
  • 默认启动后会先处于休眠状态,不会直接进入可对话态
  • 休眠态默认会先走单独的唤醒识别模型,当前默认是 sense-asr-deepthink
  • 如果想改成更轻的唤醒模型,可以手动指定 --wake-asr-model sense-asr-lite
  • 默认语速是 1.25
  • 导出的默认设置不会自动开启 WeSpeaker
  • 导出的默认设置也不会默认开启流式 TTS
  • 默认支持播报时被新语音打断
  • 默认把打断敏感度调得更稳:
- interrupt grace = 1.2s - interrupt min speech = 0.35s - interrupt threshold = -16dB
  • - 默认会多等一点静音再判断你说完了:
- silence seconds = 1.6s
  • - 默认会把回复整理成更简短、更口语化、更适合直接念出来的表达
  • 默认会尽量借鉴更自然的陪伴式交互风格:
- 短句 - 少解释 - 少套话 - 被插话后优先顺着用户这句往下接
  • - 默认会从 ~/.audioclaw/workspace/state/voiceclaw_preferences.json 读取已记住的用户偏好
  • 默认不会开启 WeSpeaker 声纹验证
  • 如果开启 WeSpeaker:
- 会自动拉起后台常驻服务并预热模型 - 默认模型是 chinese - 默认阈值是 0.72 - 后台状态和样本会保存在 ~/.audioclaw/workspace/state/wespeaker - 用户级 WeSpeaker 环境默认应放在 ~/.audioclaw/workspace/tools/wespeaker/.venv - 如果用户环境还没准备好,先看 references/wespeakerusersetup.md

主命令

默认最推荐直接用启动器,它会优先选择已经装好依赖的那套 Python,并带上更少依赖的默认参数:

bash
bash {baseDir}/scripts/startsenseaudioletclawtalk.sh

如果要手动指定 Python,再用 SenseAudio TTS:

bash
/Library/Developer/CommandLineTools/usr/bin/python3 {baseDir}/scripts/runcontinuousvoice_assistant.py \
--tts-mode senseaudio \
--capture-backend swift \
--no-senseaudio-streaming-tts \
--voice-id male0004a \
--emotion calm \
--tts-speed 1.25

如果只想快速试运行,也可以先用系统播报:

bash
/Library/Developer/CommandLineTools/usr/bin/python3 {baseDir}/scripts/runcontinuousvoice_assistant.py \
--tts-mode say

默认启动后,先说:

text
贾维斯

再继续提问。

如果想让它立刻回到休眠,可以说:

text
贾维斯休息

如果想让它记住你的偏好,可以直接说:

text
记住不要打断我
记住语速 1.1
记住多等一下再截断
记住以后更简短一点
记住以后展开一点
记住当前偏好
清除偏好

如果想查看当前状态,可以直接说:

text
当前设置

如果想开启或使用 WeSpeaker,可直接说:

text
开启 WeSpeaker 声纹验证
录入我的声音
重录我的声音
查看 WeSpeaker 状态
关闭 WeSpeaker 声纹验证
关闭只听我模式
启动后台声纹
停止后台声纹

说明:

  • - 说 录入我的声音 后,现在默认只录 1 句来建档
  • skill 会直接给出一条可照读的示例句,用户从下一句开始照读即可
  • 开启后,后台会常驻预热,后续验证会更快
  • 当前 WeSpeaker 是可选能力,不开就不会影响原来的持续语音助手流程
  • 当前 skill 会优先过滤与最近播报内容高度相似的回录,避免把刚说过的话再次当成新的用户输入
  • 如果上一轮播报被用户打断,当前 skill 不会额外加模型,也不会做复杂规则判断。
它只会把上一轮回答播报到一半被打断了这件事,用一句很轻的上下文告诉现有 agent, 让下一轮更自然地接话,避免重新铺垫上一整段。

如果想换音色,也可以直接说:

text
列出音色
有哪些音色
换成温柔御姐
切换到 male0018a
记住默认音色是 温柔御姐
以后都用 male0004a
注册克隆音色 vc-123456 叫 我的声音

如果某个音色当前无权限或暂时不可用,skill 会优先保留当前可用音色,或者自动切到一个能正常播报的兜底音色。

一键启动:

  • - 运行:

bash
bash {baseDir}/scripts/startsenseaudioletclawtalk.sh

如果要让 AudioClaw / OpenClaw 直接拉起这个长期语音模式,优先运行:

bash
bash {baseDir}/scripts/launchsenseaudioletclawtalkviaterminal.sh

原因:

  • - 持续监听属于长期麦克风进程
  • 不适合用 exec + nohup + & 在工具调用后台硬挂
  • 更稳的做法是让 skill 直接打开一个 Terminal 窗口承载会话

触发到动作规则

如果用户是在 AudioClaw / OpenClaw 里直接说:

  • - 打开持续语音助手
  • 开启持续监听语音模式
  • 打开免手打语音模式
  • 进入本机语音助手模式
  • 打开本机语音助手

不要只返回命令,也不要改用 nohup 后台启动。
也不要只回复好,已进入。你直接说。这类假状态切换。

优先直接执行:

bash
bash {baseDir}/scripts/launchsenseaudioletclawtalkviaterminal.sh

如果用户还补了偏好,再把参数附上,例如:

  • - 唤醒词:--wake-phrase 贾维斯
  • 打断播报:--interrupt-playback
  • 调试:--debug

这两个入口默认等价于:

  • - --tts-mode senseaudio
  • --capture-backend swift
  • --voice-id male0004a
  • --emotion calm
  • --tts-speed 1.25
  • --no-senseaudio-streaming-tts
  • --speaker-verification-backend none

如果需要改默认值,可以在启动

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 senseaudio-let-claw-talk-1775993403 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 senseaudio-let-claw-talk-1775993403 技能

通过命令行安装

skillhub install senseaudio-let-claw-talk-1775993403

下载

⬇ 下载 senseaudio-let-claw-talk v1.0.0(免费)

文件大小: 49.15 KB | 发布时间: 2026-4-13 11:56

v1.0.0 最新 2026-4-13 11:56
senseaudio-let-claw-talk 1.0.0

- Initial release: enables a persistent SenseAudio voice assistant on macOS with default settings for hands-free, multi-turn conversations.
- Minimizes audio backend dependencies by preferring the built-in Swift recorder over Python audio packages.
- Integrates SenseAudio ASR for speech recognition, audioclaw agent for dialogue, and SenseAudio TTS or system "say" for responses.
- Default setup does not require WeSpeaker speaker verification or streaming TTS, but both remain optional for advanced users.
- Provides flexible voice preferences, interrupter sensitivity, and “wake/sleep” phrase logic designed for natural, on-device voice assistant use.
- Emphasizes robust user feedback, persistent settings, and compatibility with existing AudioClaw/OpenClaw workflows.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部