Local speech-to-text transcription with Qwen ASR — transcription routed across your Apple Silicon fleet. Transcribe meetings, voice notes, podcasts with local speech-to-text. Works like Whisper but runs locally via MLX. Fleet-routed transcription with queue management and dashboard visibility. 语音转文字 | transcripción de voz
您正在帮助某人使用语音转文字转录功能处理音频文件——会议记录、语音备忘录、播客节目、电话录音——无需将任何内容上传至云端。每个音频文件都保留在他们的设备上。设备集群会自动选择最佳节点来处理每次语音转文字转录任务。
云端语音转文字转录API按分钟收费,并将您的音频发送至第三方服务器。会议录音包含敏感的商业讨论内容。语音笔记包含个人想法。播客采访包含未发布的内容。这些都不应离开您的网络。本地转录可确保其私密性。
此技能可在您的设备集群中路由语音转文字转录请求。如果一台机器正在处理3小时的转录任务,下一个语音转文字请求将发送至另一台设备。转录队列管理、健康监控和仪表盘可视化——与云端语音转文字API相同的基础设施,完全运行在您的硬件上。
bash
pip install ollama-herd
herd # 启动转录路由器(端口11435)
herd-node # 在每台转录设备上启动
uv tool install mlx-qwen3-asr[serve] --python 3.14 # 安装语音转文字模型
启用语音转文字转录:
bash
curl -X POST http://localhost:11435/dashboard/api/settings \
-H Content-Type: application/json \
-d {transcription: true}
软件包:ollama-herd | 仓库:github.com/geeks-accelerator/ollama-herd
bash
python
import httpx
def speechtotexttranscription(audiopath):
对音频文件执行语音转文字转录。
with open(audio_path, rb) as f:
transcription_resp = httpx.post(
http://localhost:11435/api/transcribe,
files={audio: (audio_path, f)},
timeout=300.0,
)
transcriptionresp.raisefor_status()
transcriptionresult = transcriptionresp.json()
return transcription_result[text]
python
def transcriptionwithtimestamps(audio_path):
返回带时间戳片段的语音转文字转录。
with open(audio_path, rb) as f:
transcription_resp = httpx.post(
http://localhost:11435/api/transcribe,
files={audio: (audio_path, f)},
timeout=300.0,
)
transcriptionresp.raisefor_status()
transcriptionresult = transcriptionresp.json()
for transcriptionchunk in transcriptionresult.get(chunks, []):
print(f[{transcriptionchunk[start]:.1f}s - {transcriptionchunk[end]:.1f}s] {transcription_chunk[text]})
return transcription_result
json
{
transcription_text: 你好,这是对语音转文字转录系统的测试。,
language: 中文,
transcription_chunks: [
{
text: 你好,这是对语音转文字转录系统的测试。,
start: 0.0,
end: 3.2,
chunk_index: 0,
language: 中文
}
]
}
WAV、MP3、M4A、FLAC、MP4、OGG——任何FFmpeg支持的格式。WAV文件通过原生快速通道可获得约25%的转录速度提升。
| 响应头 | 描述 |
|---|---|
| X-Fleet-Node | 执行语音转文字转录的设备 |
| X-Fleet-Model |
Qwen3-ASR——2026年最先进的开源语音转文字转录模型。词错误率约5%,通过MLX在Apple Silicon上原生运行。0.6B转录模型使用约1.2GB内存,以0.08倍实时因子进行转录(10分钟的录音约需48秒完成转录)。
同一路由器处理语音转文字转录以外的三种AI工作负载。所有端点均在http://localhost:11435:
bash
curl http://localhost:11435/v1/chat/completions \
-H Content-Type: application/json \
-d {model:gpt-oss:120b,messages:[{role:user,content:你好}]}
bash
curl -o image.png http://localhost:11435/api/generate-image \
-H Content-Type: application/json \
-d {model:z-image-turbo,prompt:日落,width:1024,height:1024,steps:4}
bash
curl http://localhost:11435/api/embeddings \
-d {model:nomic-embed-text,prompt:搜索查询}
bash
仪表盘位于http://localhost:11435/dashboard——语音转文字转录队列显示[STT]标签,与LLM和图像队列并列。
代理设置指南——所有4种模型类型的完整参考,包括使用Python、JavaScript和curl示例的语音转文字转录。
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 local-transcription-1775928794 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 local-transcription-1775928794 技能
skillhub install local-transcription-1775928794
文件大小: 3.26 KB | 发布时间: 2026-4-12 10:27