返回顶部
a

audioclaw-skills-voice-intake语音输入处理

Use when AudioClaw Skills needs to understand a user voice message with AudioClaw ASR, including speech-to-text, model routing for deepthink or pro features, optional timestamps or sentiment, and packaging the result into a ready-to-use AudioClaw user turn payload.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
201
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

audioclaw-skills-voice-intake

AudioClaw 技能语音输入

使用时机

当用户发送语音消息且 AudioClaw 需要在回复前理解内容时使用此技能。

常见触发场景:

  • - 飞书或聊天机器人收到语音消息而非文本
  • AudioClaw 需要转录文本及干净的用户消息负载
  • 工作流需要更丰富的 ASR 功能,如时间戳、情感或说话人分离
  • 团队希望使用稳定的 AudioClaw 语音输入入口,而非手写 ASR 请求
  • 频道将传入的语音文件存储为 .ogg 或 .opus 格式,AudioClaw 仍需要稳定的 ASR 路径

请勿将此技能用于语音输出。TTS 请使用 $audioclaw-skills-voice-reply。

工作流程

  1. 1. 将传入的音频文件保存到本地
  2. 使用音频路径运行 scripts/openclawvoiceintake.py
  3. 当未强制指定模型时,让脚本选择最佳模型:
- sense-asr-deepthink:用于普通单人语音理解 - sense-asr:当提供语言提示时使用 - sense-asr-pro:当需要时间戳、情感、说话人分离或标点符号时使用 - sense-asr-lite:当需要热词时使用
  1. 4. 使用脚本返回的 JSON 清单作为 AudioClaw 交接数据:
- transcript.normalized_text - openclaw.turn_payload - routing.selected_model
  1. 5. 如果 understanding.clarification_needed 为 true,请让用户重复或重新发送音频

运行时模型

官方 HTTP ASR API:

  • - 端点:https://api.senseaudio.cn/v1/audio/transcriptions
  • 内容类型:multipart/form-data
  • 文件大小限制:<=10MB
  • 此技能支持的实际本地输入后缀:.wav、.mp3、.ogg、.opus、.flac、.aac、.m4a、.mp4

支持的响应目标:

  • - 纯文本转录
  • 更丰富的原始响应透传
  • AudioClaw 就绪的对话负载

此技能保持两个层分离:

  • - AudioClaw ASR 的 ASR 输出
  • AudioClaw 打包和澄清启发式逻辑

API 密钥查找

此技能现在再次将 SENSEAUDIOAPIKEY 视为默认 API 密钥来源。

运行时规则:

  • - 如果宿主应用注入的 SENSEAUDIOAPIKEY 是 AudioClaw 登录令牌(如 v2.public...),共享引导程序将在 ASR 开始前将其替换为 ~/.audioclaw/workspace/state/senseaudiocredentials.json 中的真实 sk-... 值
  • --api-key-env 仍然可用,但默认运行时路径为 SENSEAUDIOAPI_KEY

命令

基础语音输入:

bash
python3 scripts/openclawvoiceintake.py \
--input /path/to/user_audio.mp3

带更丰富 AudioClaw 结构的语音输入:

bash
python3 scripts/openclawvoiceintake.py \
--input /path/to/meeting_clip.m4a \
--enable-punctuation \
--timestamp-granularity segment \
--enable-sentiment \
--out-json /tmp/openclawvoiceturn.json

强制指定特定模型:

bash
python3 scripts/openclawvoiceintake.py \
--input /path/to/user_audio.mp3 \
--model sense-asr-deepthink

AudioClaw 集成模式

推荐交接流程:

  1. 1. 频道适配器存储传入的音频
  2. AudioClaw 调用 scripts/openclawvoiceintake.py
  3. AudioClaw 读取:
- openclaw.turn_payload.role - openclaw.turn_payload.content - openclaw.turn_payload.metadata
  1. 4. 正常对话流程继续,如同用户键入了识别出的文本

操作规则:

  • - 在元数据中保留原始音频路径以便调试
  • 仅在确定时传递 language;否则让 ASR 自动检测
  • 如果需要时间戳、情感或说话人分离,让脚本选择 sense-asr-pro
  • 如果转录文本为空,不要臆测用户意图。请求澄清

资源

  • - scripts/senseaudioasrclient.py
- AudioClaw ASR 的多部分 HTTP 客户端 - 处理模型路由验证和 JSON 或文本响应
  • - scripts/openclawvoiceintake.py
- AudioClaw 的主要运行时 - 构建转录文本、规范化用户文本和对话负载
  • - references/openclawvoiceintake.md
- 官方 ASR 文档摘要、模型支持说明和 AudioClaw 负载示例

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 audioclaw-skills-voice-intake-1776348963 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 audioclaw-skills-voice-intake-1776348963 技能

通过命令行安装

skillhub install audioclaw-skills-voice-intake-1776348963

下载

⬇ 下载 audioclaw-skills-voice-intake v1.0.1(免费)

文件大小: 9.19 KB | 发布时间: 2026-4-17 14:08

v1.0.1 最新 2026-4-17 14:08
- Updated branding and description to reference "AudioClaw ASR" instead of "SenseAudio ASR".
- Clarified skill separation by consistently using the AudioClaw ASR term throughout the documentation.
- Added a new "API key lookup" section explaining updated handling for SENSEAUDIO_API_KEY, supporting shared bootstrap and real credential injection from workspace state.
- No functional or command-line changes to usage.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部