返回顶部
a

augent智能视听层

The audio & video layer for agents. 22 local MCP tools. No cloud, no API keys.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.5.2
安全检测
已通过
181
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

augent

Augent — 面向AI代理的音频与视频智能

Augent是一个MCP服务器,为您的代理提供22种音频和视频智能工具。通过yt-dlp和aria2c从1000多个网站下载,通过faster-whisper支持99种语言的转录,通过sentence-transformers进行关键词或语义搜索,做笔记,通过pyannote-audio识别说话人,检测章节,通过Demucs v4分离音频,导出片段,提取视觉帧,录制X/Twitter Spaces(需要在~/.augent/auth.json中配置用户认证令牌),并通过Kokoro TTS生成语音。所有处理均在本地运行。下载文件保存到~/Downloads/,笔记和片段保存到~/Desktop/,转录记忆保存到~/.augent/memory/。

配置

json
{
mcpServers: {
augent: {
command: augent-mcp
}
}
}

如果augent-mcp不在PATH中,请使用python3 -m augent.mcp作为命令替代。

安装

通过上方的ClawHub安装按钮进行安装,或使用uv tool install augent安装基础包,或使用uv tool install augent[all]安装所有功能。音频处理需要FFmpeg。

工具

Augent提供22个MCP工具:

核心

工具描述
downloadaudio以最快速度从视频URL下载音频。支持YouTube、Vimeo、TikTok、Twitter/X、SoundCloud及1000多个网站。使用aria2c多连接+并发分片。
transcribeaudio
对任何音频文件进行完整转录,包含每段的时间戳。返回文本、语言、时长和段落。按文件哈希缓存。 | | search_audio | 在音频中搜索关键词。返回带时间戳的匹配结果及上下文片段。支持片段导出。 | | deep_search | 语义搜索——通过含义而非仅关键词查找时刻。使用sentence-transformers嵌入。 | | search_memory | 在单个查询中搜索所有存储的转录。支持关键词或语义模式。 | | take_notes | 一站式操作:从URL下载音频、转录并保存格式化笔记。支持5种风格:tldr、notes、highlight、eye-candy、quiz。 | | clip_export | 从任意URL导出指定时间范围的视频片段。仅下载请求的片段。 |

分析

工具描述
chapters使用嵌入相似度自动检测带时间戳的主题章节。
search_proximity
查找两个关键词在彼此附近出现的位置(例如,startup在funding的30个词范围内)。 | | identify_speakers | 说话人分离——识别谁在何时说话。无需API密钥。 | | separate_audio | 使用Meta的Demucs v4从音乐/噪音中分离人声。将纯净人声输入转录。 | | batch_search | 并行搜索多个音频文件。适用于播客库或采访集合。 |

实用工具

工具描述
texttospeech使用Kokoro TTS将文本转换为自然语音。54种声音,9种语言。后台运行。
list_files
列出目录中的媒体文件及大小信息。 | | list_memories | 按标题、时长和日期浏览所有存储的转录。 | | memory_stats | 查看记忆统计信息(文件数量、总时长)。 | | clear_memory | 清除转录记忆以释放磁盘空间。 | | tag | 在转录上添加、删除或列出标签。用于组织记忆的广泛主题类别。 | | highlights | 从转录中导出最佳时刻。自动模式选取最佳时刻;聚焦模式查找匹配主题的时刻。 | | visual | 在关键时刻从视频中提取视觉上下文。支持查询、自动、手动和辅助模式。帧保存到Obsidian仓库。 | | rebuild_graph | 为所有转录重建Obsidian图谱视图数据。迁移文件、计算维基链接、生成MOC中心。 | | spaces | 下载或实时录制X/Twitter Spaces。可开始、检查状态或停止录制。 |

使用示例

从视频做笔记

从 https://youtube.com/watch?v=xxx 做笔记

代理调用take_notes,该工具会下载、转录并返回格式化笔记。一次工具调用完成所有操作。

搜索播客主题

搜索这个播客中所有提到AI监管的地方——提供文件路径或URL。

代理使用searchaudio进行精确关键词匹配,或使用deepsearch进行语义匹配(即使没有精确词语也能找到相关讨论)。

转录并识别说话人

转录这个会议录音,告诉我谁说了什么

代理先调用transcribeaudio,然后调用identifyspeakers为每个段落标注说话人。

跨所有转录搜索

搜索我所有转录过的内容中关于融资的提及

代理使用search_memory在所有存储的转录中搜索,无需提供文件路径。

导出片段

剪辑他们讨论定价的部分

代理使用searchaudio或deepsearch找到该时刻,然后使用clip_export提取该片段。

从嘈杂音频中分离人声

这个录音有背景音乐,清理一下并转录

代理调用separateaudio分离人声,然后在纯净人声轨道上调用transcribeaudio。

从文本生成语音

大声朗读这些笔记

代理调用texttospeech生成自然语音的MP3文件。支持多种声音和语言。

笔记风格

使用take_notes时,style参数控制格式:

风格描述
tldr尽可能短的摘要。一屏显示。加粗关键术语。
notes
带嵌套项目符号的清晰章节(默认)。 |
| highlight | 带标注块突出关键见解的笔记,以及带时间戳的引用块。 |
| eye-candy | 最大视觉格式化——标注块、表格、清单、引用块。 |
| quiz | 带答案的多项选择题。 |

模型大小

tiny是默认模型,几乎能处理所有情况。仅在处理重口音、音频质量差或需要最高精度时使用更大的模型。

模型速度精度
tiny最快优秀(默认)
base
快 | 优秀 |
| small | 中等 | 卓越 |
| medium | 慢 | 出色 |
| large | 最慢 | 最高 |

文件路径

Augent在您机器上的以下位置读写文件:

路径用途
~/Downloads/下载音频文件的默认目录
~/Desktop/
笔记、片段和TTS输出的默认目录 |
| ~/.augent/memory/transcriptions.db | 用于持久化转录记忆的SQLite数据库 |
| ~/.augent/memory/transcriptions/ | 每个存储转录的Markdown文件 |
| ~/.augent/config.yaml | 用户配置(可选) |
| ~/.augent/auth.json | 用于Spaces录制的Twitter/X认证cookies(可选,用户创建) |

如果安装了Obsidian,视觉帧将保存到Obsidian仓库的External Files/visual/目录。仓库路径从Obsidian的配置中自动检测。

网络访问

网络访问仅用于两个目的:

  1. 1. 通过yt-dlp和aria2c从用户提供的URL下载媒体
  2. 首次使用时从Hugging Face下载ML模型(Whisper、sentence-transformers、pyannote、Demucs、Kokoro)

无遥测。无后台网络活动。不上传任何数据。

ML依赖

augent[all]安装包含以下本地ML组件:

组件用途大小
faster-whisper语音转文本转录~75MB(tiny模型)
sentence-transformers
语义搜索、自动标签、章节检测 | ~90MB |
| pyannote-audio | 说话人分离 | ~29MB |
| Demucs v4 | 音频源分离(从噪音中分离人声) | ~80MB |
| Kokoro | 文本转语音(54种声音,9种语言) | ~200MB |

所有模型均在本地运行。无需API密钥或云服务。

要求

  • - Python 3.10+
  • FFmpeg(音频处理)
  • yt-dlp + aria2c(用于音频下载)

链接

  • - [GitHub](https://github

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 augent-1775928495 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 augent-1775928495 技能

通过命令行安装

skillhub install augent-1775928495

下载

⬇ 下载 augent v1.5.2(免费)

文件大小: 6.26 KB | 发布时间: 2026-4-12 09:04

v1.5.2 最新 2026-4-12 09:04
Force fresh VT scan resubmission.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部