返回顶部
q

qwen-omni-multimodal通义多模态

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.2.0
安全检测
已通过
141
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

qwen-omni-multimodal

Qwen Omni 多模态模型

通过阿里云百炼 OpenAI 兼容接口调用 Qwen Omni 模型,默认使用 qwen3.5-omni-flash,自动选型时会在 qwen3.5-omni-flash 和 qwen3.5-omni-plus 之间切换;同时保留对 qwen3-omni-flash 与 qwen-omni-turbo 的显式兼容。支持文本、图片、音频、视频输入,并可返回文本或音频。

详细参数与约束见 references/api.md。

脚本支持单轮调用,也支持带本地会话历史的多轮对话。

设置

  1. 1. 配置 API Key:

bash
export DASHSCOPEAPIKEY=sk-xxx

也可以在 skill 目录下创建 config.json:

可先参考 config.example.json 再复制为 config.json。

json
{
apiKey: sk-xxx,
baseUrl: https://dashscope.aliyuncs.com/compatible-mode/v1,
selectionPolicy: auto,
defaultModel: qwen3.5-omni-flash,
modelCandidates: [
qwen3.5-omni-flash,
qwen3.5-omni-plus
],
voiceByModelFamily: {
qwen3.5-omni: Tina,
qwen3-omni-flash: Cherry,
qwen-omni-turbo: Serena
},
voice: Tina
}

  1. 2. 运行环境要求 Node.js >= 18
  1. 3. 可选:如果使用新加坡地域,覆盖 Base URL:

bash
export DASHSCOPEBASEURL=https://dashscope-intl.aliyuncs.com/compatible-mode/v1

配置优先级:

  • - CLI 参数
  • 环境变量
  • config.json
  • 脚本默认值

具体覆盖规则:

  • - 模型选择:CLI --model > DASHSCOPEMODEL > selectionPolicy=auto > config.defaultModel > config.model > 内置默认
  • Base URL:DASHSCOPEBASEURL > config.baseUrl > 内置默认
  • 音色选择:CLI --voice > DASHSCOPEVOICE > config.voiceByModelFamily[模型家族] > config.voice > 内置默认
  • API Key:DASHSCOPEAPIKEY > config.apiKey
  • selectionPolicy=fixed|auto
- fixed:按默认模型走,不自动切换 - auto:音频/视频理解优先 qwen3.5-omni-plus,文本/图片理解与语音输出优先 qwen3.5-omni-flash
  • - config.modelCandidates 用于维护候选模型列表;selectionPolicy=auto 时会优先在候选列表里选模型
  • config.voiceByModelFamily 用于给不同模型家族配置不同默认音色,避免切模型后沿用不兼容音色

何时使用

  • - 用户要看图说话、图像问答、图像对比
  • 用户要识别、转写、总结音频
  • 用户要理解视频内容,或同时利用视频中的视觉和音频信息
  • 用户要求模型直接输出语音
  • 用户明确提到 Qwen-Omni / Qwen3.5-Omni / Qwen3-Omni-Flash / 百炼全模态

关键限制

  • - Qwen-Omni 只支持流式调用,脚本默认强制 stream=true
  • 一条 user 消息只允许包含文本和一种模态数据
  • 输出音频时需要显式设置 modalities=[text,audio]
  • qwen3.5-omni-plus 和 qwen3.5-omni-flash 为非思考模型,不支持 --enable-thinking=true
  • qwen3-omni-flash 开启思考模式时,不支持音频输出
  • 图片列表形式的视频输入:
- Qwen3.5-Omni:4 到 512 张图片 - qwen3-omni-flash:2 到 128 张图片
  • - 多轮模式下,脚本只保留当前活动话题;切到 fresh 时不会把旧话题继续注入给模型

支持模型与选择建议

  • - 默认模型:qwen3.5-omni-flash
  • 自动选型默认优先:
- 音频/视频理解:qwen3.5-omni-plus - 文本/图片理解、语音输出:qwen3.5-omni-flash
  • - 也支持显式选择旧模型:qwen3-omni-flash、qwen-omni-turbo
  • 推荐在 config.json 中使用:
- selectionPolicy:设置 fixed 或 auto - defaultModel:设置默认模型 - modelCandidates:维护允许 Agent 自动优先考虑的模型列表
  • - 当前脚本已内置价格提醒的模型家族:
- qwen3.5-omni-plus - qwen3.5-omni-plus-2026-03-15 - qwen3.5-omni-flash - qwen3.5-omni-flash-2026-03-15 - qwen3-omni-flash - qwen3-omni-flash-2025-12-01 - qwen3-omni-flash-2025-09-15 - qwen-omni-turbo - qwen-omni-turbo-latest - qwen-omni-turbo-2025-03-26 - qwen-omni-turbo-2025-01-19
  • - 价格取舍基于你提供的中国内地价格表:
- qwen3.5-omni-flash:成本更低,适合默认文本/图片理解与语音输出 - qwen3.5-omni-plus:长音频、长视频与复杂跨模态理解更稳 - qwen-omni-turbo:保留显式兼容,不再作为默认自动选型目标
  • - 当前 skill 默认切到 qwen3.5-omni-flash
- 原因是新版能力更完整,同时更接近当前 skill 的默认成本档位 - 当 selectionPolicy=auto 时,会按任务类型在 qwen3.5-omni-flash 和 qwen3.5-omni-plus 之间自动二选一

音色选择建议

  • - 当前脚本已内置模型家族音色表,并会在 --with-audio 时校验音色是否合法
  • 可用 --list-voices --model 查看当前模型家族支持的音色
  • 推荐把默认音色维护在 config.voiceByModelFamily 中,而不是只写一个全局 voice
  • qwen3.5-omni 当前默认音色:Tina(甜甜 Tina)
  • qwen3.5-omni 当前内置音色示例:
- Tina(甜甜 Tina)、Serena(苏瑶 Serena)、Ethan(晨煦 Ethan)、Katerina(卡捷琳娜 Katerina)、Jennifer(詹妮弗 Jennifer) - Ryan(甜茶 Ryan)、Sunny(四川-晴儿 Sunny)、Dylan(北京-晓东 Dylan)、Rocky(粤语-阿强 Rocky)、Chloe(思怡 Chloe) - 以及其余官方文档列出的全部 55 个音色,可通过 --list-voices 查看
  • - qwen-omni-turbo 当前内置音色:
- Cherry(辛悦) - Serena(苏瑶) - Ethan(晨煦) - Chelsie(千雪)
  • - qwen3-omni-flash 当前内置音色:
- Cherry(辛悦)、Ethan(晨煦)、Nofish(不吃鱼)、Jennifer(詹妮弗)、Ryan(甜茶) - Katerina(卡捷琳娜)、Elias(墨讲师)、Jada(上海-阿珍)、Dylan(北京-晓东)、Sunny(四川-晴儿) - Li(南京-老李)、Marcus(陕西-秦川)、Roy(闽南-阿杰)、Peter(天津-李彼得)、Rocky(粤语-阿强

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 qwen-omni-multimodal-1776025159 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 qwen-omni-multimodal-1776025159 技能

通过命令行安装

skillhub install qwen-omni-multimodal-1776025159

下载

⬇ 下载 qwen-omni-multimodal v0.2.0(免费)

文件大小: 25.23 KB | 发布时间: 2026-4-13 11:42

v0.2.0 最新 2026-4-13 11:42
Qwen-Omni 全模态 skill 升级至 3.5 版本,支持最新模型接口与能力。

- 默认模型切换为 qwen3.5-omni-flash,自动选型时可在 qwen3.5-omni-flash 与 qwen3.5-omni-plus 间切换,仍兼容旧版模型。
- 支持新版更丰富的音色(如 Tina),推荐语音输出优先使用 Tina,支持 55+ 官方音色列表。
- 默认配置与参数、会话规则、模态限制、任务适配等均已更新适配 3.5 版本。
- 保留对 qwen3-omni-flash 和 qwen-omni-turbo 等历史模型的显式兼容,便于场景平滑迁移。
- 价格提醒、模型能力描述、输入限制、会话及音频输出等文档细节全面同步新版 Qwen-Omni 3.5 官方规范。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部