返回顶部
f

faster-whisper-local-service本地语音转录服务

Local speech-to-text (STT) transcription service for OpenClaw using faster-whisper. Runs as HTTP microservice on localhost for voice input, microphone transcription, and speech recognition. No recurring API costs — after initial model download, runs fully local. Supports WebChat voice input, Telegram voice messages, and any OpenClaw voice workflow. Keywords: STT, speech to text, voice transcription, local transcription, whisper, faster-whisper, offline, microphone, speech recognition, voice inpu

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.2.0
安全检测
已通过
1,362
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

faster-whisper-local-service

Faster Whisper 本地服务

为语音技能提供本地语音转文字后端。

本服务设置的内容

  • - 用于 faster-whisper 的 Python 虚拟环境
  • 位于 http://127.0.0.1:18790/transcribe 的 transcribe-server.py HTTP 端点
  • systemd 用户服务:openclaw-transcribe.service

重要提示:首次运行时下载模型

首次启动时,faster-whisper 会从 Hugging Face 下载模型权重(medium 模型约 1.5 GB)。这需要互联网连接和磁盘空间。初始下载完成后,模型会缓存到本地,服务将完全离线运行

模型下载大小内存占用
tiny约 75 MB约 400 MB
base
约 150 MB | 约 500 MB |
| small | 约 500 MB | 约 800 MB |
| medium | 约 1.5 GB | 约 1.4 GB |
| large-v3 | 约 3.0 GB | 约 3.5 GB |

如需在离线环境中预下载模型,请参阅 faster-whisper 文档

安全说明

网络隔离

  • - 仅绑定到 127.0.0.1 — 无法从网络访问
  • CORS 限制为单一来源(默认为 https://127.0.0.1:8443)。
  • 不使用或存储任何凭据、API 密钥或机密信息。

输入验证

  • - 上传大小限制:超过配置限制的请求在处理前将被拒绝(HTTP 413)。默认值:50 MB,可通过 MAXUPLOADMB 配置。
  • 魔数检查:仅接受具有可识别音频签名(WAV、OGG、FLAC、MP3、WebM、M4A)的文件。无法识别的格式在到达 GStreamer 前将被拒绝(HTTP 415)。
  • 子进程安全:传递给 gst-launch-1.0 的所有参数均以列表形式传递 — 不存在 shell 扩展或注入风险。

GStreamer 依赖

该服务使用 GStreamer 的 decodebin 进行音频格式转换。与任何媒体库一样,GStreamer 的解析器处理二进制数据,应保持更新。缓解措施:从操作系统供应商的可信软件包安装 gst-launch-1.0,并定期应用安全更新。上述魔数预过滤通过在非音频负载到达 GStreamer 前将其拒绝,减少了攻击面。

无数据泄露

  • - 无出站网络调用(初始模型下载后)。
  • 无遥测、分析或回传行为。
  • 临时文件在每次请求的 TemporaryDirectory 中创建,并立即清理。

可复现性默认设置

  • - 固定包:faster-whisper==1.1.1(可通过环境变量覆盖)
  • 显式检查 gst-launch-1.0 依赖
  • 默认将 CORS 限制为单一来源
  • 可配置的工作空间/服务路径(无硬编码用户路径)

部署

bash
bash scripts/deploy.sh

使用自定义设置:

bash
WORKSPACE=~/.openclaw/workspace \
TRANSCRIBE_PORT=18790 \
WHISPERMODELSIZE=medium \
WHISPER_LANGUAGE=auto \
TRANSCRIBEALLOWEDORIGIN=https://10.0.0.42:8443 \
bash scripts/deploy.sh

语言设置

默认值:auto(自动检测语言)。设置为 WHISPER_LANGUAGE=de 仅支持德语,en 仅支持英语等。如果只使用一种语言,固定语言模式更快且更准确。

幂等性:可安全重复运行。

本技能修改的内容

内容路径操作
Python 虚拟环境$WORKSPACE/.venv-faster-whisper/创建虚拟环境,通过 pip 安装 faster-whisper
转录服务器
$WORKSPACE/voice-input/transcribe-server.py | 写入服务器脚本 | | Systemd 服务 | ~/.config/systemd/user/openclaw-transcribe.service | 创建并启用持久化服务 | | 模型缓存 | ~/.cache/huggingface/ | 首次运行时下载模型权重 |

卸载

bash
systemctl --user stop openclaw-transcribe.service
systemctl --user disable openclaw-transcribe.service
rm -f ~/.config/systemd/user/openclaw-transcribe.service
systemctl --user daemon-reload

可选完全清理:

bash
rm -rf ~/.openclaw/workspace/.venv-faster-whisper
rm -f ~/.openclaw/workspace/voice-input/transcribe-server.py

验证

bash
bash scripts/status.sh

预期结果:

  • - 服务状态为 active
  • 端点响应正常(对于无效示例负载,HTTP 200/500 均可接受)

备注

  • - 本技能仅提供后端转录功能。
  • 与 webchat-voice-proxy 配合使用,可实现浏览器麦克风 + HTTPS/WSS 集成。
  • 如需一键安装,请使用 webchat-voice-full-stack(按顺序部署后端和代理)。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 faster-whisper-local-service-1776420032 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 faster-whisper-local-service-1776420032 技能

通过命令行安装

skillhub install faster-whisper-local-service-1776420032

下载

⬇ 下载 faster-whisper-local-service v0.2.0(免费)

文件大小: 6.34 KB | 发布时间: 2026-4-17 19:25

v0.2.0 最新 2026-4-17 19:25
Security hardening: input validation (magic-byte check, configurable upload size limit), GStreamer subprocess timeout, sanitized error responses, restructured security docs

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部