media-gen-vision-video媒体生成视频

Generate and analyze images, and generate videos using OpenClaw's preferred Google media workflows. Use when the user asks to create, edit, inspect, compare, or describe images/screenshots, or to generate videos, especially when the task should follow the preferred Nano Banana 2 / Gemini image path, Gemini multimodal image understanding path, or Veo 3.1 video path.

作者: admin | 来源: ClawHub

媒体生成、视觉与视频

选择正确的路径

- 图像生成或编辑：优先使用Nano Banana 2 / Gemini图像工作流。
图像理解/截图分析：使用Gemini多模态图像理解功能。
视频生成：使用Google Veo 3.1。

不可妥协的原则

- 优先使用Google原生媒体模型和官方流程。
保持宽高比、分辨率、风格和参考图像约束条件。
当多模态路径可用时，不得猜测图像内容。
除非实际生成了视频文件，否则不得声称视频生成成功。
交付文件时，在支持的情况下直接将生成的素材发送到对话中。
对于成功的图像或视频生成，始终将实际媒体素材交付到聊天中；当支持直接发送时，不得仅停留在摘要或路径层面。

图像生成与编辑

- 优先使用首选的图像工具路径。
对于编辑操作，除非用户明确要求更改，否则保持用户参考图像的身份特征不变。
如果用户指定了尺寸或比例，尽可能精确地满足要求。
如果任务要求生成多个变体，则一次性生成少量变体，而非逐一循环生成。

图像理解

- 对截图、照片和UI检查使用多模态分析。
仅报告可见或证据充分的内容。
将确认的观察结果与推断区分开来。
如果图像无法读取或仅部分可见，应明确说明。

视频生成

- 默认使用Veo 3.1。
尽可能优先使用官方Gemini API工作流。
在分享前将最终文件保存为稳定的文件名。
如果当前环境无法输出视频，应明确说明并指出阻碍因素。
除非用户接受替代方案，否则不得用静态图像或文本摘要替代实际视频文件。

交付与报告

- 在可用时返回生成的素材。
如果用户要求文件，不要将其埋没在文字描述中——直接附加或发送。
保持回复简洁：结果、文件/路径（如有）、以及阻碍因素（如有）。

media-gen-vision-video媒体生成视频

media-gen-vision-video

Media Generation, Vision, and Video

Choose the right path

Non-negotiables

Image generation and editing

Image understanding

Video generation

Delivery and reporting

媒体生成、视觉与视频

选择正确的路径

不可妥协的原则

图像生成与编辑

图像理解

视频生成

交付与报告

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

media-gen-vision-video媒体生成视频

media-gen-vision-video

Media Generation, Vision, and Video

Choose the right path

Non-negotiables

Image generation and editing

Image understanding

Video generation

Delivery and reporting

媒体生成、视觉与视频

选择正确的路径

不可妥协的原则

图像生成与编辑

图像理解

视频生成

交付与报告

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement