返回顶部
l

local-transcription本地语音转录

Local speech-to-text transcription with Qwen ASR — transcription routed across your Apple Silicon fleet. Transcribe meetings, voice notes, podcasts with local speech-to-text. Works like Whisper but runs locally via MLX. Fleet-routed transcription with queue management and dashboard visibility. 语音转文字 | transcripción de voz

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
145
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

local-transcription

本地语音转文字转录

您正在帮助某人使用语音转文字转录功能处理音频文件——会议记录、语音备忘录、播客节目、电话录音——无需将任何内容上传至云端。每个音频文件都保留在他们的设备上。设备集群会自动选择最佳节点来处理每次语音转文字转录任务。

为什么本地语音转文字转录很重要

云端语音转文字转录API按分钟收费,并将您的音频发送至第三方服务器。会议录音包含敏感的商业讨论内容。语音笔记包含个人想法。播客采访包含未发布的内容。这些都不应离开您的网络。本地转录可确保其私密性。

此技能可在您的设备集群中路由语音转文字转录请求。如果一台机器正在处理3小时的转录任务,下一个语音转文字请求将发送至另一台设备。转录队列管理、健康监控和仪表盘可视化——与云端语音转文字API相同的基础设施,完全运行在您的硬件上。

开始使用语音转文字转录

bash
pip install ollama-herd
herd # 启动转录路由器(端口11435)
herd-node # 在每台转录设备上启动
uv tool install mlx-qwen3-asr[serve] --python 3.14 # 安装语音转文字模型

启用语音转文字转录:

bash
curl -X POST http://localhost:11435/dashboard/api/settings \
-H Content-Type: application/json \
-d {transcription: true}

软件包:ollama-herd | 仓库:github.com/geeks-accelerator/ollama-herd

使用语音转文字转录音频

curl — 基础转录

bash

会议录音的语音转文字转录


curl -s http://localhost:11435/api/transcribe \
-F audio=@meeting-recording.wav | python3 -m json.tool

Python — 语音转文字转录

python
import httpx

def speechtotexttranscription(audiopath):
对音频文件执行语音转文字转录。
with open(audio_path, rb) as f:
transcription_resp = httpx.post(
http://localhost:11435/api/transcribe,
files={audio: (audio_path, f)},
timeout=300.0,
)
transcriptionresp.raisefor_status()
transcriptionresult = transcriptionresp.json()
return transcription_result[text]

执行语音转文字转录

transcriptiontext = speechtotexttranscription(meeting.wav) print(transcription_text)

带时间戳的语音转文字转录

python
def transcriptionwithtimestamps(audio_path):
返回带时间戳片段的语音转文字转录。
with open(audio_path, rb) as f:
transcription_resp = httpx.post(
http://localhost:11435/api/transcribe,
files={audio: (audio_path, f)},
timeout=300.0,
)
transcriptionresp.raisefor_status()
transcriptionresult = transcriptionresp.json()
for transcriptionchunk in transcriptionresult.get(chunks, []):
print(f[{transcriptionchunk[start]:.1f}s - {transcriptionchunk[end]:.1f}s] {transcription_chunk[text]})
return transcription_result

转录响应格式

json
{
transcription_text: 你好,这是对语音转文字转录系统的测试。,
language: 中文,
transcription_chunks: [
{
text: 你好,这是对语音转文字转录系统的测试。,
start: 0.0,
end: 3.2,
chunk_index: 0,
language: 中文
}
]
}

支持的转录音频格式

WAV、MP3、M4A、FLAC、MP4、OGG——任何FFmpeg支持的格式。WAV文件通过原生快速通道可获得约25%的转录速度提升。

语音转文字转录响应头

响应头描述
X-Fleet-Node执行语音转文字转录的设备
X-Fleet-Model
使用的转录模型(qwen3-asr) | | X-Transcription-Time | 转录处理时间(毫秒) |

语音转文字转录模型

Qwen3-ASR——2026年最先进的开源语音转文字转录模型。词错误率约5%,通过MLX在Apple Silicon上原生运行。0.6B转录模型使用约1.2GB内存,以0.08倍实时因子进行转录(10分钟的录音约需48秒完成转录)。

该集群也提供以下服务

同一路由器处理语音转文字转录以外的三种AI工作负载。所有端点均在http://localhost:11435:

LLM推理

bash
curl http://localhost:11435/v1/chat/completions \
-H Content-Type: application/json \
-d {model:gpt-oss:120b,messages:[{role:user,content:你好}]}

图像生成

bash
curl -o image.png http://localhost:11435/api/generate-image \
-H Content-Type: application/json \
-d {model:z-image-turbo,prompt:日落,width:1024,height:1024,steps:4}

嵌入向量

bash
curl http://localhost:11435/api/embeddings \
-d {model:nomic-embed-text,prompt:搜索查询}

监控语音转文字转录

bash

转录统计(最近24小时)


curl -s http://localhost:11435/dashboard/api/transcription-stats | python3 -m json.tool

集群健康状态(包含语音转文字转录活动)

curl -s http://localhost:11435/dashboard/api/health | python3 -m json.tool

仪表盘位于http://localhost:11435/dashboard——语音转文字转录队列显示[STT]标签,与LLM和图像队列并列。

完整文档

代理设置指南——所有4种模型类型的完整参考,包括使用Python、JavaScript和curl示例的语音转文字转录。

安全护栏

  • - 切勿删除或修改用户提供的用于转录的音频文件。
  • 切勿将音频数据发送至外部服务——所有语音转文字转录均为本地处理。
  • 切勿删除或修改~/.fleet-manager/中的文件。
  • 如果转录失败,建议检查节点日志:tail ~/.fleet-manager/logs/herd.jsonl。
  • 如果没有可用的语音转文字模型,建议安装:uv tool install mlx-qwen3-asr[serve] --python 3.14。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 local-transcription-1775928794 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 local-transcription-1775928794 技能

通过命令行安装

skillhub install local-transcription-1775928794

下载

⬇ 下载 local-transcription v1.0.2(免费)

文件大小: 3.26 KB | 发布时间: 2026-4-12 10:27

v1.0.2 最新 2026-4-12 10:27
Cross-platform support: macOS, Linux, and Windows. Updated OS metadata, descriptions, and hardware recommendations.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部