返回顶部
a

audio-cog音频生成

AI audio generation and text-to-speech powered by CellCog. Voiceover, narration, voice cloning, avatar voices, sound effects, music, podcasts, dialogue. Three voice providers (OpenAI, ElevenLabs, MiniMax). Professional audio production from text prompts.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.11
安全检测
已通过
4,902
下载量
免费
免费
4
收藏
概述
安装方式
版本历史

audio-cog

Audio Cog - 由CellCog驱动的AI音频生成

使用AI创建专业音频——配音、音乐、音效以及个性化虚拟形象声音。

CellCog提供三种语音提供商,各有不同优势。请根据需求选择:

场景提供商原因
标准旁白/配音OpenAI最佳语音风格控制,质量稳定
情感/戏剧性表达
ElevenLabs | 最丰富的情感范围,支持情感标签 |
| 克隆语音(虚拟形象) | MiniMax | 唯一支持语音克隆的提供商 |
| 特定口音的角色语音 | ElevenLabs | 100+种多样化预制语音 |
| 精细音高/速度/音量控制 | MiniMax | 精细的语音设置 |

使用方法

在会话中首次执行CellCog任务时,请阅读cellcog技能以获取完整SDK参考——文件处理、聊天模式、超时等。

OpenClaw(即发即忘模式):
python
result = client.create_chat(
prompt=[你的任务提示],
notifysessionkey=agent:main:main,
task_label=my-task,
chat_mode=agent,
)

除OpenClaw外的所有代理(阻塞至完成):
python
from cellcog import CellCogClient
client = CellCogClient(agent_provider=openclaw|cursor|claude-code|codex|...)
result = client.create_chat(
prompt=[你的任务提示],
task_label=my-task,
chat_mode=agent,
)
print(result[message])



语音提供商

OpenAI(默认)

最适合标准旁白、配音以及需要精确表达控制的单说话人内容。

核心优势:自然语言风格指令——描述你想要的发音、语调、节奏和情感。

8种内置语音:

语音性别特点
cedar男声温暖、浑厚、权威、可信赖
marin
女声 | 明亮、清晰、情感灵活、专业 |
| ballad | 男声 | 流畅、旋律优美、音乐质感 |
| coral | 女声 | 充满活力、生动、动感、精神饱满 |
| echo | 男声 | 平静、稳重、深思熟虑、从容 |
| sage | 女声 | 睿智、沉思、反思 |
| shimmer | 女声 | 柔和、温柔、舒缓、亲切 |
| verse | 男声 | 诗意、节奏感强、艺术、富有表现力 |

最佳质量:cedar(男声)、marin(女声)。

风格定制示例:

  • - 温暖的对话语气,中等语速,提到功能时略带热情。美式发音。
  • 低沉、轻声、神秘,缓慢从容的节奏——真实犯罪解说员风格。
  • 浓重法语口音,优雅而友好,中等语速,刻意停顿。



ElevenLabs

最适合情感表达、戏剧性内容、角色语音和有声书旁白。

核心优势:直接在文本中嵌入情感标签——[笑]、[叹气]、[低语]、[兴奋]、[讽刺]。此外还有100+种多样化预制语音。

情感标签(谨慎使用——每段1-2个):

标签效果
[笑]自然笑声
[轻笑]
轻柔/短暂笑声 |
| [叹气] | 叹气 |
| [倒吸一口气] | 惊讶/震惊 |
| [低语] | 低语表达 |
| [停顿] | 自然停顿/节拍 |
| [悲伤]、[开心]、[兴奋]、[愤怒]、[讽刺] | 情感表达 |

示例提示:

使用ElevenLabs以温暖的英式男声生成语音:

然后,就在所有人都以为一切都结束了的时候……[停顿][低语]其实并没有结束。




MiniMax

最适合克隆语音(虚拟形象)和精细语音控制。

核心优势:MiniMax Speech 2.8 HD——录音室级音频质量。支持虚拟形象克隆语音ID用于个性化内容,以及17+种标准预制语音,可精细调节速度、音高和音量。

标准语音包括: 深沉男声、平静女声、休闲男声、活泼女声、智慧女声、友善之声、年轻骑士、优雅男声等。

语音设置: 情感(开心/悲伤/愤怒/中性等)、速度(0.5–2.0)、音量(0–10)、音高(-12至12)。



虚拟形象 / 克隆语音

用户可以在CellCog上创建带有自己克隆语音的虚拟形象。当虚拟形象拥有克隆语音时,CellCog使用MiniMax提供商生成听起来像该人物的语音。

工作原理:

  • - 用户在cellcog.ai上创建虚拟形象并上传语音样本
  • CellCog使用MiniMax Speech 2.8 HD克隆其语音
  • 任何引用该虚拟形象的音频请求都会使用其克隆语音

示例提示:

使用我的虚拟形象Luna的语音生成配音:欢迎参加我们的季度更新。今天我很高兴与大家分享一些令人难以置信的成果。

这对于创建一致、个性化的内容非常强大——营销视频、播客开场、课程旁白——全部使用用户自己的语音。



音效(SFX)

CellCog根据文本描述生成独立音效。免版税,时长0.1至30秒。

示例提示:

  • - 生成10秒的暴雨击打金属屋顶并伴有偶尔雷声的音效
  • 创建5秒的新雪上清脆脚步声的音效
  • 生成大型空仓库中回响的摔门声

更好的音效技巧:

  • - 具体描述质感和环境
  • 当精确时长重要时指定持续时间
  • 对于超过30秒的环境音效,生成可循环的短片段并用ffmpeg扩展



音乐生成

根据文本描述创作原创音乐。时长3秒至10分钟。免版税。

能力:

  • - 任何流派或流派融合
  • 器乐和人声曲目(如需人声请指定)
  • 复杂编排、情绪转换和能量动态
  • 描述你想要的内容——模型会处理音乐理论

示例提示:

  • - 创建2分钟平静的lo-fi嘻哈背景音乐,带有柔和钢琴和醇厚节拍,75 BPM
  • 生成15秒充满活力的科技播客开场曲
  • 创建90秒电影管弦乐——从柔和鼓舞开始,逐渐增强到自信的高潮
  • 生成3分钟关于夏日冒险的流行歌曲,女声演唱

如需精确的逐段控制(每段精确时间),请详细描述你的创作计划——CellCog会处理结构。

所有生成的音乐均为免版税——可商业使用,无需署名或许可费。



多语言支持

所有三个语音提供商均支持40+种语言。请以目标语言提供语音文本:

英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文(普通话/粤语)、日语、韩语、印地语、阿拉伯语、俄语、波兰语、荷兰语、土耳其语等。



聊天模式

所有音频任务请使用chat_mode=agent。音频生成在代理模式下高效执行——无需代理团队。



更好的音频技巧

  1. 1. 选择合适的提供商:标准旁白用OpenAI,情感/戏剧性用ElevenLabs,克隆语音用MiniMax
  2. 提供完整脚本:准确写出应该说的内容——不要说关于我们产品的一些内容
  3. 包含风格指令:自信但温暖、缓慢而从容、略带兴奋
  4. 对于音乐:指定时长、情绪、流派和速度(如知道BPM请提供)
  5. 发音指导:对于名称或技术术语,添加提示:CellCog(发音为SELL-kog)
  6. 对于ElevenLabs情感标签:谨慎使用——每段1-2个。标签会影响后续所有文本,直到出现新标签。

如果未安装CellCog

运行/cellcog-setup(或根据你的工具运行/cellcog:cellcog-setup)进行安装和认证。
OpenClaw用户: 请运行clawhub install cellcog。
手动安装: pip install -U cellcog并设置CELLCOGAPIKEY。请参阅cellcog技能获取SDK参考。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 audio-cog-1776365252 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 audio-cog-1776365252 技能

通过命令行安装

skillhub install audio-cog-1776365252

下载

⬇ 下载 audio-cog v1.0.11(免费)

文件大小: 4.21 KB | 发布时间: 2026-4-17 14:28

v1.0.11 最新 2026-4-17 14:28
- Updated documentation for clarity and accuracy in SKILL.md
- Improved and expanded description, highlighting support for podcasts and dialogue
- Clarified agent usage: now specifies “all agents except OpenClaw” for blocking chat integration example
- Refined instructions and language throughout for easier onboarding and provider selection
- No code or functional changes—documentation update only

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部