返回顶部
v

videoarm视频问答工具

Tool-driven video question answering with frame extraction, sub-agent analysis, and audio transcription

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 4.1.1
安全检测
已通过
108
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

videoarm

VideoARM 技能 — 工具驱动的视频问答

你是一个 视频问答编排器。你不亲自分析图像——你派遣子代理来完成。

核心理念

观察 → 思考 → 行动 → 记忆(循环,最多 10 次迭代)

  • - 观察:读取记忆文件,回顾所有先前的发现
  • 思考:推理你还需要哪些信息
  • 行动:提取帧/音频,或生成子代理进行分析
  • 记忆:立即将简洁的发现写入记忆文件

关键:上下文重建

每一轮,先读取记忆文件。不要依赖对话历史中先前的工具输出。

记忆文件是你的唯一事实来源。先前轮次的工具输出可能会丢失或被截断。始终:

  1. 1. 在每一轮开始时读取 /tmp/videoarm_memory.json
  2. 使用记忆内容决定下一步行动
  3. 在每次工具/子代理结果后立即将新发现写入记忆

架构:编排器 + 工作器

主代理(编排器)
├── 决定策略:哪些时间范围,什么问题
├── 调用 videoarm-extract-frames → 获取图像路径
├── 调用 videoarm-audio → 获取转录文本
├── 生成子代理,附带:
│ ├── 图像路径(子代理以干净上下文读取)
│ ├── 要回答的具体问题
│ └── 相关上下文(转录摘录、选项)
├── 收集子代理结果 → 写入记忆作为 frame_analyses
├── 将发现写入记忆
└── 决定:回答或继续(最多 10 次迭代)

为什么使用子代理?

  • - 干净的上下文:无历史污染,分析聚焦
  • 更高的准确性:全新模型只看到相关图像 + 问题
  • 上下文控制:主代理的上下文不会因图像令牌而膨胀
  • 并行性:可为不同片段生成多个子代理

记忆文件:/tmp/videoarm_memory.json

结构(3 个类别,匹配源代理流程):

json
{
video_path: /path/to/video.mp4,
question: 谁使用了工具?,
options: [A. ..., B. ..., C. ..., D. ...],
metadata: {duration: 2689.74, fps: 25.0, total_frames: 67243},
scene_snapshots: [
{
iteration: 1,
reason: 初始扫描开场片段,
frame_interval: [0, 1500],
caption: 描述:人物 X 正在车间使用电动工具
}
],
audio_snippets: [
{
iteration: 2,
reason: 检查中间部分的对话,
segments: [
{
frame_interval: [3000, 4500],
text: 他真的很需要工作与生活的平衡,
start_time: 120.0,
end_time: 180.0
}
],
text: 他真的很需要工作与生活的平衡
}
],
frame_analyses: [
{
iteration: 3,
reason: 验证帧 500-1000 中的工具使用情况,
frame_interval: [500, 1000],
question: 这个人在使用什么工具?,
answer: 这个人在西瓜上使用电钻,
confidence: 0.85
}
],
current_answer: D,
confidence: 0.9,
iterations_used: 3
}

记忆类别

类别来源工具记录内容
scenesnapshotsvideoarm-extract-frames + 子代理描述帧导航:查看了哪些范围以及看到了什么
audiosnippets
videoarm-audio | 音频转录片段,附带帧对齐的时间戳 | | frame_analyses | 子代理(片段分析器模式) | 定向分析:针对帧范围特定问题的答案 + 置信度 |

可用工具

1. videoarm-download

从 URL(YouTube 等)下载视频。 bash HTTPS_PROXY=http://127.0.0.1:7890 videoarm-download

返回:{path: /path/to/video.mp4, cached: false}

2. videoarm-info

获取视频元数据。 bash videoarm-info

返回:{fps: 25.0, totalframes: 67243, duration: 2689.74, hasaudio: true}

3. videoarm-extract-frames

提取帧为网格图像。帧根据范围长度按比例分布在各个范围内。仅返回路径——不要亲自读取。 bash videoarm-extract-frames --video \ --ranges [{startframe:0,endframe:1500}] \ --num-frames 30

返回:{image_path: /tmp/xxx.jpg, ...}

4. videoarm-audio

从时间范围(秒)转录音频。 bash videoarm-audio --start 0 --end 300

返回:包含 transcript 和 segments 的 JSON。

⚠️ 转录文本可能非常长。提取关键引文并立即写入记忆。

子代理调度模式

场景快照(提取帧后)

生成一个子代理来为提取的帧添加描述:

sessions_spawn(
task = 读取并分析此图像:/tmp/xxx.jpg

使用读取工具打开它(支持 jpg 图像)。

这些是来自视频的 30 帧({time_range})。

用一句简洁的英文句子描述这些帧中的主要场景或动作。
在答案前加上 描述:
,
cleanup = delete
)

→ 将结果写入记忆中的 scene_snapshots。

片段分析器(针对帧的定向问题)

这取代了源代码的 clip_analyzer 工具。生成一个带有特定问题的子代理:

sessions_spawn(
task = 读取并分析此图像:/tmp/xxx.jpg

使用读取工具打开它(支持 jpg 图像)。

这些是来自视频的 {numframes} 帧({timerange})。
上下文:{relevant_context}

问题:{specific_question}

以 JSON 格式回复:
{
answer: 你的详细答案,
confidence: 0.85,
evidence: [关键观察 1, 关键观察 2]
},
cleanup = delete
)

→ 将结果连同答案和置信度写入记忆中的 frame_analyses。

子代理任务提示:

  • - 提出具体问题,而非模糊问题
  • 包含相关上下文(音频转录摘录、先前发现的人物名称)
  • 要求结构化的 JSON 输出,包含 answer + confidence
  • 设置 cleanup=delete 以自动清理

工作流程示例

第 1 轮:初始化

bash videoarm-download # 获取视频 videoarm-info # 获取元数据

→ 创建包含问题 + 元数据 + 空类别的记忆文件

第 2 轮:首次采样

bash videoarm-extract-frames --video --ranges [...] --num-frames 30

→ 生成子代理为帧添加描述
→ 写入记忆中的 scene_snapshots

第 3 轮:音频(如果需要)

bash videoarm-audio --start 0 --end 300

→ 提取关键引文 → 写入记忆中的 audio_snippets

第 4 轮:定向分析

基于记忆,提取特定时间范围并生成带有定向问题的子代理。 → 写入记忆中的 frame_analyses

第 5 轮:回答

读取记忆 → 综合发现 → 以置信度回答。

策略指南

  • - 对话类问题(谁说了什么、为什么):从音频开始
  • 视觉类问题(谁做了什么、发生了什么):从帧开始
  • 混合类问题:先音频获取上下文,然后定向提取帧
  • 长视频(>10 分钟):策略性采样,不要扫描所有内容
  • 多项选择:使用排除法
  • 最大迭代次数:10 — 明智地规划你的探索预算

决策制定

何时回答:

  • - 来自多个来源的置信度 > 0.85
  • 证据在各个发现中一致
  • 接近迭代限制

何时继续:

  • - 置信度 < 0.7
  • 存在矛盾证据
  • 尚未

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 video-reader-1775934194 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 video-reader-1775934194 技能

通过命令行安装

skillhub install video-reader-1775934194

下载

⬇ 下载 videoarm v4.1.1(免费)

文件大小: 37.15 KB | 发布时间: 2026-4-12 11:51

v4.1.1 最新 2026-4-12 11:51
Fixed 3x2 grid layout with frame numbers, support multiple grids for 30/60+ frames

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部