返回顶部
l

local-stt-workflow本地语音转文字

Local speech-to-text workflow for an OpenAI-compatible STT server, typically on http://127.0.0.1:8000/v1. Use when configuring, testing, debugging, or validating audio transcription with `/v1/audio/transcriptions` or `/v1/audio/translations`, especially for OpenClaw audio pipelines, multipart upload compatibility, model registration, streaming SSE behavior, response_format handling, local model-path fallback, and “did the request reach the server or not?” investigations.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
113
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

local-stt-workflow

本地语音转文本工作流

使用此技能调试完整转录路径,而不仅仅是模型。

默认假设:本地STT服务器位于 http://127.0.0.1:8000/v1。

当前值得记住的本地模型路径回退:如果服务器未按名称拉取模型,它可能直接从本地路径加载,例如 ./models/Qwen3-ASR-0.6B-bf16。

当精确路由形状很重要时,本地OpenAPI文档位于:

  • - http://localhost:8000/openapi.json

使用此OpenAPI文档作为模式/参考源,将此本地 mlx-audio 服务器与OpenAI的API进行比较。不要将其视为健康检查。

工作流

1. 在归咎于OpenClaw之前先验证服务器

首先检查基础项:

bash
curl http://127.0.0.1:8000/health
curl http://127.0.0.1:8000/v1/models

确认预期的STT模型存在,通常是 qwen3-asr。

如果模型未按拉取的注册表名称出现,不要假设STT已损坏——此服务器可能正在运行本地路径模型,例如 ./models/Qwen3-ASR-0.6B-bf16。

如果服务器受任务限制,请确保STT已启用:

bash
MLXAUDIOSERVER_TASKS=stt uv run python server.py

如果模型缺失,请在测试客户端之前注册它——但首先检查服务器是否故意从本地路径加载,并通过 /v1/models 或 http://localhost:8000/openapi.json 验证确切的已接受模型ID。

2. 证明原始STT端点正常工作

始终将服务器与客户端堆栈隔离。

最小直接转录测试:

bash
curl -X POST http://127.0.0.1:8000/v1/audio/transcriptions \
-F file=@sample.wav \
-F model=qwen3-asr \
-F response_format=json

有用的更丰富测试:

bash
curl -X POST http://127.0.0.1:8000/v1/audio/transcriptions \
-F file=@sample.wav \
-F model=qwen3-asr \
-F responseformat=verbosejson \
-F timestamp_granularities[]=segment \
-F timestamp_granularities[]=word

如果直接 curl 有效但OpenClaw无效,则错误可能出在消息接收或路由层,而不是STT后端。

3. 区分服务器故障与路由故障

严格执行此规则:

  • - 直接curl失败 → 首先修复本地STT服务器
  • 直接curl有效,但OpenClaw未显示转录 → 检查OpenClaw音频管道/附件路由
  • OpenClaw发送请求,但字段错误 → 检查请求形状兼容性

这种区分可以节省大量时间。

4. 检查请求形状

此服务器围绕OpenAI风格的多部分表单上传设计。

来自当前本地OpenAPI模式的 /v1/audio/transcriptions 预期核心字段:

  • - 必需:file、model
  • 可选:language、verbose、maxtokens、chunkduration、framethreshold、stream、context、prefillstep_size、text

这意味着本地服务器未暴露与OpenAI Whisper风格文档相同的表单形状。不要盲目假设 responseformat、prompt 或 timestampgranularities[] 存在,仅仅因为OpenAI支持它们。

如果怀疑客户端发送了错误的形状,请使用临时转储代理或服务器日志检查流量。

5. 当确切字段很重要时使用参考文档

当需要以下确切行为时,阅读 references/stt-api.md:

  • - responseformat=json|text|verbosejson|srt|vtt
  • stream=true SSE事件
  • timestamp_granularities[]
  • include[]
  • 翻译端点语义
  • 错误信封形状
  • 当前兼容性限制

当此本地服务器可能有意不同时,不要从通用OpenAI文档猜测字段支持。

当前值得注意的不匹配:本地模式暴露了 context 和 text,以及分块/预填充控制,如 chunkduration、framethreshold 和 prefillstepsize,这些不是通常的OpenAI STT字段集。

6. OpenClaw特定的调试模式

当OpenClaw STT似乎损坏时:

  1. 1. 确认 tools.media.audio 已配置,而不是 messages.stt
  2. 确认基础URL指向 http://127.0.0.1:8000/v1
  3. 确认所选模型存在于 /v1/models 中
  4. 将确切的入站音频文件直接发送到 /v1/audio/transcriptions
  5. 检查网关日志中是否有任何转录分派的迹象
  6. 如果完全没有 /audio/transcriptions 请求,则问题出在STT上游

如果OpenClaw从未命中服务器,停止调整模型参数。那将是盲目的调试。

7. 首选测试阶梯

按此顺序使用:

  1. 1. GET /health
  2. GET /v1/models
  3. 使用相同音频文件直接 curl 转录
  4. 将请求字段与 http://localhost:8000/openapi.json 比较
  5. OpenAI客户端兼容性测试
  6. OpenClaw集成测试
  7. 仅在仍然不明确时进行转储代理/日志检查

8. 常见结论

小众输入容器错误

典型迹象:

  • - 直接上传不太常见的容器如 .m4a 返回 500
  • 服务器日志提到临时写入或规范化期间不支持的格式处理
  • 将相同源音频转换为 mp3 或 wav 使转录立即成功

结论:将其视为输入容器兼容性错误,而不是ASR质量故障。目前,在测试识别质量之前,将小众格式转码为 mp3 或 wav。

服务器正常,客户端异常

典型迹象:

  • - 手动 curl 返回 { text: ... }
  • OpenClaw日志显示无转录请求
  • 更改模型/语言无效果

结论:修复路由,而不是推理。

多部分不匹配

典型迹象:

  • - 服务器已启动
  • 模型存在
  • 客户端收到400错误
  • 直接 curl 有效但应用客户端无效

结论:比较多部分字段名称和值。

功能不匹配

典型迹象:

  • - 客户端期望说话人分离、对数概率或更丰富的流式字段
  • 本地服务器仅实现较小的兼容子集

结论:使期望与 references/stt-api.md 对齐。

资源

references/

  • - references/stt-api.md — 确切的本地API行为、模式、响应格式、SSE事件、限制和兼容性说明

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 local-stt-workflow-1775892661 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 local-stt-workflow-1775892661 技能

通过命令行安装

skillhub install local-stt-workflow-1775892661

下载

⬇ 下载 local-stt-workflow v1.0.2(免费)

文件大小: 6.52 KB | 发布时间: 2026-4-12 10:27

v1.0.2 最新 2026-4-12 10:27
local-stt-workflow 1.0.2

- Added guidance for handling transcription failures when using less-common audio containers like `.m4a`
- Clarified that container incompatibility should be treated as an input compatibility, not ASR quality, issue
- Updated "Common conclusions" section with troubleshooting advice for input-container bugs

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部