返回顶部
a

aliyun-qwen-asr阿里云千问语音转写

Use when transcribing non-realtime speech with Alibaba Cloud Model Studio Qwen ASR models (`qwen3-asr-flash`, `qwen-audio-asr`, `qwen3-asr-flash-filetrans`). Use when converting recorded audio files to text, generating transcripts with timestamps, or documenting DashScope/OpenAI-compatible ASR request and response fields.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
118
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

aliyun-qwen-asr

技能名称: aliyun-qwen-asr
详细描述:
类别: 提供者

Model Studio Qwen ASR(非实时)

验证

bash
mkdir -p output/aliyun-qwen-asr
python -m pycompile skills/ai/audio/aliyun-qwen-asr/scripts/transcribeaudio.py && echo pycompileok > output/aliyun-qwen-asr/validate.txt

通过标准:命令退出码为0,且生成了 output/aliyun-qwen-asr/validate.txt 文件。

输出与证据

  • - 将转录文本和API响应存储在 output/aliyun-qwen-asr/ 目录下。
  • 每次运行保留一个命令日志或示例响应。

使用Qwen ASR对录制的音频进行转录(非实时),包括短音频同步调用和长音频异步任务。

关键模型名称

使用以下精确的模型字符串之一:

  • - qwen3-asr-flash
  • qwen3-asr-flash-2026-02-10
  • qwen-audio-asr
  • qwen3-asr-flash-filetrans
  • qwen3-asr-flash-filetrans-2025-11-17

选择指南:

  • - 对于短/普通录音(同步),使用 qwen3-asr-flash、qwen3-asr-flash-2026-02-10 或 qwen-audio-asr。
  • 对于长文件转录(异步任务工作流),使用 qwen3-asr-flash-filetrans 或 qwen3-asr-flash-filetrans-2025-11-17。

前提条件

  • - 安装SDK依赖(脚本仅使用Python标准库):

bash
python3 -m venv .venv
. .venv/bin/activate

  • - 在环境中设置 DASHSCOPEAPIKEY,或将 dashscopeapikey 添加到 ~/.alibabacloud/credentials 文件中。

标准化接口(asr.transcribe)

请求

  • - audio(字符串,必填):公共URL或本地文件路径。
  • model(字符串,可选):默认为 qwen3-asr-flash。
  • languagehints(字符串数组,可选):例如 zh、en。
  • samplerate(数字,可选)
  • vocabularyid(字符串,可选)
  • disfluencyremovalenabled(布尔值,可选)
  • timestampgranularities(字符串数组,可选):例如 sentence。
  • async(布尔值,可选):同步模型默认为false,qwen3-asr-flash-filetrans 默认为true。

响应

  • - text(字符串):标准化后的转录文本。
  • task_id(字符串,可选):异步提交时存在。
  • status(字符串):SUCCEEDED 或提交状态。
  • raw(对象):原始API响应。

快速开始(官方HTTP API)

同步转录(兼容OpenAI协议):

bash
curl -sS --location https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
--header Authorization: Bearer $DASHSCOPEAPIKEY \
--header Content-Type: application/json \
--data {
model: qwen3-asr-flash,
messages: [
{
role: user,
content: [
{
type: input_audio,
input_audio: {
data: https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3
}
}
]
}
],
stream: false,
asr_options: {
enable_itn: false
}
}

异步长文件转录(DashScope协议):

bash
curl -sS --location https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription \
--header Authorization: Bearer $DASHSCOPEAPIKEY \
--header X-DashScope-Async: enable \
--header Content-Type: application/json \
--data {
model: qwen3-asr-flash-filetrans,
input: {
file_url: https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3
}
}

轮询任务结果:

bash
curl -sS --location https://dashscope.aliyuncs.com/api/v1/tasks/ \
--header Authorization: Bearer $DASHSCOPEAPIKEY

本地辅助脚本

使用捆绑脚本处理URL/本地文件输入,并可选择异步轮询:

bash
python skills/ai/audio/aliyun-qwen-asr/scripts/transcribe_audio.py \
--audio https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3 \
--model qwen3-asr-flash \
--language-hints zh,en \
--print-response

长文件模式:

bash
python skills/ai/audio/aliyun-qwen-asr/scripts/transcribe_audio.py \
--audio https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3 \
--model qwen3-asr-flash-filetrans \
--async \
--wait

操作指南

  • - 对于本地文件,当无法直接使用URL时,请使用 inputaudio.data(数据URI)。
  • 保持 languagehints 尽可能少,以减少识别歧义。
  • 对于异步任务,使用5-20秒的轮询间隔,并设置最大重试保护。
  • 将标准化输出保存在 output/aliyun-qwen-asr/transcripts/ 目录下。

输出位置

  • - 默认输出:output/aliyun-qwen-asr/transcripts/
  • 通过 OUTPUT_DIR 覆盖基础目录。

工作流程

1) 确认用户意图、区域、标识符,以及操作是只读还是修改。
2) 首先运行一个最小的只读查询,以验证连接和权限。
3) 使用明确的参数和有限的范围执行目标操作。
4) 验证结果并保存输出/证据文件。

参考资料

  • - references/api_reference.md
  • references/sources.md
  • 实时合成由 skills/ai/audio/aliyun-qwen-tts-realtime/ 提供。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 aliyun-qwen-asr-1775887703 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 aliyun-qwen-asr-1775887703 技能

通过命令行安装

skillhub install aliyun-qwen-asr-1775887703

下载

⬇ 下载 aliyun-qwen-asr v1.0.0(免费)

文件大小: 8.03 KB | 发布时间: 2026-4-12 08:57

v1.0.0 最新 2026-4-12 08:57
Initial release of aliyun-qwen-asr for non-realtime audio transcription:

- Supports Alibaba Cloud Qwen ASR models for transcribing audio files to text, including transcript generation with timestamps.
- Compatible with both synchronous (short/normal audio) and asynchronous (long-file) workflows.
- Provides a straightforward Python script and curl examples for submitting and polling transcription jobs.
- Normalized interface for consistent request and response handling across different model modes.
- Clear operational and validation guidance, including output storage conventions and polling recommendations.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部