返回顶部
s

senseaudio-let-claw-talk-universal语音助手

当用户希望把 AudioClaw 变成一个持续监听、开口就说、停顿就回答的本机语音助手时使用。这个 skill 支持 macOS 和 Windows 两个平台:优先尝试 Python 录音链路,macOS 上再提供原生 Swift 录音兜底;用户语音通过 SenseAudio ASR 转文字,再发给 audioclaw agent,并用 SenseAudio TTS 或系统语音读回结果。它保留可选的 WeSpeaker 后台服务和流式 TTS,但默认导出配置会尽量减少平台专属依赖。适合免手打问答、桌面语音助理、连续语音控制和原型演示。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
108
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

senseaudio-let-claw-talk-universal

SenseAudio-Let-Claw-Talk-Universal

当用户想要下面这些能力时,使用这个 skill:

  • - 一直开着麦克风,开口就能和 AudioClaw 对话
  • 不想切换到专门的 CLI 或 TUI,只要功能能跑
  • 想在本机做持续语音问答、语音助手、免手打交互
  • 想继续使用已经调通的 SenseAudio ASR 和 TTS
  • 想在 macOS 和 Windows 上复用同一套语音助手逻辑
  • 想按需开启 WeSpeaker 声纹验证,把后台模型常驻起来减少冷启动

高优先级触发说法:

  • - 打开持续语音助手
  • 开启持续监听语音模式
  • 打开免手打语音模式
  • 进入本机语音助手模式
  • 帮我打开一直监听的语音助手
  • 用 $senseaudio-let-claw-talk-universal 启动语音助手

不适合:

  • - 只想转写单条语音
  • 只想把一段文字转成语音
  • 想做飞书消息内的一次性语音收发

默认行为

这个 skill 默认:

  • - 在 macOS 和 Windows 上都使用同一套持续监听主循环
  • 默认优先使用 auto 录音后端:
- 如果 numpy + sounddevice + webrtcvad 可用,就走 Python 录音 - 如果在 macOS 上且 Python 录音不可用,就回退到原生 Swift 录音器
  • - 导出的默认配置不会依赖 WeSpeaker、流式 TTS、状态音这些可选能力
  • 用当前 skill 内置的 SenseAudio ASR 客户端做语音识别
  • 用 audioclaw agent 跑对话
  • 用当前 skill 内置的 SenseAudio TTS 客户端做语音播报,或用系统语音做本地兜底
  • 导出的默认设置会先关闭 SenseAudio 流式 TTS,优先走整段播报,减少对 miniaudio 和流式链路调优的依赖
  • 如果用户后面想启用流式 TTS,可以再手动打开
  • 当前 skill 内置了常用音色目录和克隆音色登记,不依赖其他语音 skill
  • 默认关闭状态提示音,减少平台差异和额外依赖
  • 如果用户手动打开状态提示音,每次重新进入监听前,会先播一个轻提示音,告诉用户现在开始收音
  • 默认启动时会先做一次自检:
- 检查 Python 解释器 - 检查录音后端依赖 - 检查 ASR / TTS API key - 检查当前音色是否真的可用
  • - 默认唤醒词是 贾维斯
  • 默认睡眠词是 贾维斯休息
  • 默认唤醒保持时间是 90 秒
  • 默认启动后会先处于休眠状态,不会直接进入可对话态
  • 休眠态默认会先走单独的唤醒识别模型,当前默认是 sense-asr-deepthink
  • 如果想改成更轻的唤醒模型,可以手动指定 --wake-asr-model sense-asr-lite
  • 默认语速是 1.25
  • 导出的默认设置不会自动开启 WeSpeaker
  • 导出的默认设置也不会默认开启流式 TTS
  • 默认支持播报时被新语音打断
  • 默认把打断敏感度调得更稳:
- interrupt grace = 1.2s - interrupt min speech = 0.35s - interrupt threshold = -16dB
  • - 默认会多等一点静音再判断你说完了:
- silence seconds = 1.6s
  • - 默认会把回复整理成更简短、更口语化、更适合直接念出来的表达
  • 默认会尽量借鉴更自然的陪伴式交互风格:
- 短句 - 少解释 - 少套话 - 被插话后优先顺着用户这句往下接
  • - 默认会从 ~/.audioclaw/workspace/state/voiceclaw_preferences.json 读取已记住的用户偏好
  • 默认不会开启 WeSpeaker 声纹验证
  • 如果开启 WeSpeaker:
- 会自动拉起后台常驻服务并预热模型 - 默认模型是 chinese - 默认阈值是 0.72 - 后台状态和样本会保存在 ~/.audioclaw/workspace/state/wespeaker - 用户级 WeSpeaker 环境默认应放在 ~/.audioclaw/workspace/tools/wespeaker/.venv - 如果用户环境还没准备好,先看 references/wespeakerusersetup.md

环境要求

macOS 最小跑通环境

  • - 已安装商汤输入法 AudioClaw,并且能找到 CLI:
- /Applications/商汤输入法AudioClaw.app/Contents/Resources/claws/picoclaw/audioclaw-darwin-arm64 - 或 /Applications/商汤输入法AudioClaw.app/Contents/Resources/claws/picoclaw/audioclaw-darwin-amd64
  • - 有可用的 python3
  • 已通过用户级凭据文件提供 SenseAudio key:
- ~/.audioclaw/workspace/state/senseaudio_credentials.json
  • - 如果没有安装 numpy + sounddevice + webrtcvad,当前 skill 会优先回退到 macOS 原生 Swift 录音器
  • 使用原生 Swift 录音器时,建议本机有可用的命令行开发工具:
- xcode-select --install

Windows 最小跑通环境

  • - 已安装 Windows 版 AudioClaw,并且能找到内部 CLI:
- C:\Program Files\AudioClaw\resources\claws\picoclaw\audioclaw.exe
  • - 已安装真实可用的 Python,推荐:
- Python 3.11 x64 - 或 Python 3.12 x64
  • - Windows 不建议把 C:\Users\<用户名>\AppData\Local\Microsoft\WindowsApps\python.exe 当成真实 Python
  • 当前 Windows 版最小录音链路需要:
- numpy - sounddevice - webrtcvad - setuptools
  • - 用户级凭据文件需要存在:
- C:\Users\<用户名>\.audioclaw\workspace\state\senseaudio_credentials.json

推荐安装命令:

powershell
py -3 -m pip install --upgrade pip setuptools
py -3 -m pip install numpy sounddevice webrtcvad

完整版服务环境

如果你想把这套 skill 开成更完整的桌面语音服务,建议补齐这些可选能力。

macOS / Windows 通用可选项:

  • - 可选流式 TTS:
- miniaudio
  • - 可选 WeSpeaker 声纹验证:
- 建议单独准备用户级虚拟环境 - 不要塞进 skill 包
  • - 用户级共享凭据:
- ~/.audioclaw/workspace/state/senseaudio_credentials.json - 或 C:\Users\<用户名>\.audioclaw\workspace\state\senseaudio_credentials.json

WeSpeaker 完整环境建议:

  • - 推荐独立 Python 版本:
- Python 3.11
  • - 推荐用户级环境目录:
- macOS / Linux: ~/.audioclaw/workspace/tools/wespeaker/.venv - Windows: C:\Users\<用户名>\.audioclaw\workspace\tools\wespeaker\.venv
  • - 典型依赖:
- torch - torchaudio - soundfile - PyYAML - requests - onnxruntime - s3prl - openai-whisper - peft - wespeaker

说明:

  • - 当前导出包默认关闭 WeSpeaker
  • 当前导出包默认关闭 SenseAudio 流式 TTS
  • 这两项属于完整版增强能力,不影响最小跑通链路
  • Windows 上如果说录入我的声音后明显卡很久,优先检查:
- C:\Users\<用户名>\.audioclaw\workspace\state\wespeaker\service.log - 以及 voiceclaw_runtime.log

日志与排障

当前 skill 现在保留了 3 组用户级日志/状态文件:

  • - 运行时状态:
- ~/.audioclaw/workspace/state/voiceclawruntimestate.json
  • - 运行时事件日志:
- ~/.audioclaw/workspace/state/voiceclaw_runtime.log
  • - agent 原始错误日志:
- ~/.audioclaw/workspace/state/voiceclawagenterror.log

Windows 上对应路径是:

  • - C:\Users\<用户名>\.audioclaw\workspace\state\voiceclawruntimestate.json
  • C

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 senseaudio-let-claw-talkv1-1775957718 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 senseaudio-let-claw-talkv1-1775957718 技能

通过命令行安装

skillhub install senseaudio-let-claw-talkv1-1775957718

下载

⬇ 下载 senseaudio-let-claw-talk-universal v1.0.1(免费)

文件大小: 60.25 KB | 发布时间: 2026-4-13 11:56

v1.0.1 最新 2026-4-13 11:56
- 增加了详细的运行环境说明,分别针对 macOS 和 Windows,明确最小依赖与推荐配置。
- 新增一节“日志与排障”,列出运行时状态和日志文件的位置,并给出常见问题的判断和排查建议。
- 补充了 WeSpeaker、流式 TTS 等可选增强能力的安装和环境路径说明。
- 强调了 Windows 下真实 Python 解释器与 pip 依赖安装的推荐命令。
- 默认主要行为、启动命令和唤醒逻辑保持不变,进一步完善了用户操作指引和环境兼容性说明。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部