返回顶部
g

gemini-sttGemini语音转录

Transcribe audio files using Google's Gemini API or Vertex AI

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.1.0
安全检测
已通过
3,078
下载量
免费
免费
2
收藏
概述
安装方式
版本历史

gemini-stt

Gemini 语音转文本技能

使用 Google 的 Gemini API 或 Vertex AI 转录音频文件。默认模型为 gemini-2.0-flash-lite,提供最快转录速度。

身份验证(二选一)

选项 1:使用应用默认凭据的 Vertex AI(推荐)

bash
gcloud auth application-default login
gcloud config set project YOURPROJECTID

脚本在可用时会自动检测并使用 ADC。

选项 2:直接使用 Gemini API 密钥

在环境变量中设置 GEMINIAPIKEY(例如 ~/.env 或 ~/.clawdbot/.env)

系统要求

  • - Python 3.10+(无外部依赖)
  • 配置了 GEMINIAPIKEY 或已配置 ADC 的 gcloud CLI

支持的格式

  • - .ogg / .opus(Telegram 语音消息)
  • .mp3
  • .wav
  • .m4a

使用方法

bash

自动检测身份验证(优先尝试 ADC,然后尝试 GEMINIAPIKEY)


python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg

强制使用 Vertex AI

python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex

使用特定模型

python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --model gemini-2.5-pro

使用特定项目和区域的 Vertex AI

python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex --project my-project --region us-central1

使用 Clawdbot 媒体文件

python ~/.claude/skills/gemini-stt/transcribe.py ~/.clawdbot/media/inbound/voice-message.ogg

选项

选项描述
<audio_file>音频文件路径(必填)
--model, -m
使用的 Gemini 模型(默认:gemini-2.0-flash-lite) | | --vertex, -v | 强制使用带 ADC 的 Vertex AI | | --project, -p | GCP 项目 ID(用于 Vertex,默认为 gcloud 配置) | | --region, -r | GCP 区域(用于 Vertex,默认:us-central1) |

支持的模型

任何支持音频输入的 Gemini 模型均可使用。推荐模型:

模型说明
gemini-2.0-flash-lite默认。 最快转录速度。
gemini-2.0-flash
快速且经济高效。 |
| gemini-2.5-flash-lite | 轻量级 2.5 模型。 |
| gemini-2.5-flash | 平衡速度与质量。 |
| gemini-2.5-pro | 更高质量,速度较慢。 |
| gemini-3-flash-preview | 最新闪速模型。 |
| gemini-3-pro-preview | 最新专业模型,最佳质量。 |

查看 Gemini API 模型 获取最新列表。

工作原理

  1. 1. 读取音频文件并进行 base64 编码
  2. 自动检测身份验证:
- 如果 ADC 可用(gcloud),则使用 Vertex AI 端点 - 否则,使用 GEMINIAPIKEY 直接调用 Gemini API
  1. 3. 将转录提示发送到选定的 Gemini 模型
  2. 返回转录文本

集成示例

用于 Clawdbot 语音消息处理:

bash

转录传入的语音消息


TRANSCRIPT=$(python ~/.claude/skills/gemini-stt/transcribe.py $AUDIO_PATH)
echo 用户说:$TRANSCRIPT

错误处理

脚本在以下情况下退出并返回代码 1,并将错误信息输出到 stderr:

  • - 没有可用的身份验证(既没有 ADC 也没有 GEMINIAPIKEY)
  • 文件未找到
  • API 错误
  • 缺少 GCP 项目(使用 Vertex 时)

说明

  • - 默认使用 Gemini 2.0 Flash Lite 实现最快转录速度
  • 无外部 Python 依赖(仅使用标准库)
  • 根据文件扩展名自动检测 MIME 类型
  • 在可用时优先使用带 ADC 的 Vertex AI(无需管理 API 密钥)

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 gemini-stt-1776393967 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 gemini-stt-1776393967 技能

通过命令行安装

skillhub install gemini-stt-1776393967

下载

⬇ 下载 gemini-stt v1.1.0(免费)

文件大小: 4.6 KB | 发布时间: 2026-4-17 13:58

v1.1.0 最新 2026-4-17 13:58
Added support for Google Vertex AI with Application Default Credentials (ADC). Now supports both GEMINI_API_KEY and gcloud ADC authentication methods. Auto-detects authentication method.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部