Gemini Video Analyzer
Analyze videos natively using Google Gemini's multimodal API. No frame extraction needed — Gemini processes video at 1 FPS with full motion, audio, and visual understanding.
Quick Start
CODEBLOCK0
Supported Formats
MP4, AVI, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP — up to 2GB per file.
How It Works
- 1. Video uploads to Google's Files API (temporary, auto-deletes after 48h)
- Gemini processes at 1 frame/sec — understands motion, transitions, audio context
- Model generates response based on your prompt
- Way better than frame extraction for understanding temporal content
Use Cases
| Task | Example Prompt |
|---|
| General description | (default — no prompt needed) |
| UI/text extraction |
"What text and UI elements are visible?" |
| Tutorial summary |
"Summarize the steps shown in this tutorial" |
| Bug report from video |
"Describe what went wrong in this screen recording" |
| Meeting notes |
"Summarize the key points discussed" |
| Content comparison | Upload 2 videos, ask for differences |
Configuration
Set GOOGLE_AI_API_KEY in your environment or .env file. Get a free key at aistudio.google.com.
Default model: gemini-2.5-flash (fast, cheap, excellent vision). Override with --model gemini-2.5-pro for complex analysis.
API Reference
See references/gemini-files-api.md for file upload limits, processing details, and advanced options.
Credits
Built by M. Abidi · LinkedIn · YouTube · GitHub · Book a Call
Gemini 视频分析器
使用 Google Gemini 的多模态 API 原生分析视频。无需提取帧——Gemini 以 1 FPS 处理视频,具备完整的运动、音频和视觉理解能力。
快速开始
bash
使用默认提示词分析视频(完整描述)
GOOGLE
AIAPI
KEY=$GOOGLEAI
APIKEY python3 {baseDir}/scripts/analyze.py /path/to/video.mp4
提出具体问题
GOOGLE
AIAPI
KEY=$GOOGLEAI
APIKEY python3 {baseDir}/scripts/analyze.py /path/to/video.mp4 屏幕上显示什么文字?
管理已上传文件
GOOGLE
AIAPI
KEY=$GOOGLEAI
APIKEY python3 {baseDir}/scripts/manage_files.py list
GOOGLE
AIAPI
KEY=$GOOGLEAI
APIKEY python3 {baseDir}/scripts/manage_files.py cleanup
支持的格式
MP4、AVI、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP——每个文件最大 2GB。
工作原理
- 1. 视频上传至 Google 的 Files API(临时存储,48 小时后自动删除)
- Gemini 以每秒 1 帧的速度处理——理解运动、转场、音频上下文
- 模型根据您的提示词生成响应
- 在理解时序内容方面远优于帧提取方法
使用场景
| 任务 | 示例提示词 |
|---|
| 通用描述 | (默认——无需提示词) |
| UI/文字提取 |
屏幕上显示哪些文字和 UI 元素? |
| 教程总结 | 总结本教程中展示的步骤 |
| 视频错误报告 | 描述此屏幕录制中出现的错误 |
| 会议记录 | 总结讨论的关键要点 |
| 内容对比 | 上传 2 个视频,询问差异 |
配置
在环境变量或 .env 文件中设置 GOOGLEAIAPIKEY。在 aistudio.google.com 获取免费密钥。
默认模型:gemini-2.5-flash(快速、廉价、出色的视觉能力)。对于复杂分析,可使用 --model gemini-2.5-pro 覆盖。
API 参考
关于文件上传限制、处理详情和高级选项,请参阅 references/gemini-files-api.md。
致谢
由 M. Abidi 构建 · LinkedIn · YouTube · GitHub · 预约通话