videogen v2 — 视频号 AI 短视频自动化生产流水线

⚠️ 重要前置说明

API 体系

API Key 类型	开头	支持能力
MiniMax Key	INLINECODE0	TTS (speech-2.8-hd) ✅、Hailuo 视频生成 ✅、Music ❌
IMA Key

ima_ | SeeDream 生图、Wan/Kling 视频（数字分身必需） |

每日额度：usage limit exceeded (2056) 报错表示当日 Hailuo 视频额度耗尽，需次日恢复。当前 key 不支持 music-2.5+。

API 错误处理规范

CODEBLOCK0

三种内容模式

系统根据选题自动判断最优内容模式（可手动指定覆盖）：

Mode A — 纯干货型

适用：财经分析、技术教程、行业报告、数据解读、科普讲解

结构：开场痛点(3s) → 核心要点×3(各12s) → 金句收尾(9s)

视觉：PPT/图表为主，AI点缀关键帧（数字动画、光芒效果）

CODEBLOCK1

Mode B — 剧情+科普型 ✨ 新版主打

适用：职业发展、认知升级、社会洞察、励志干货

结构：剧情钩子(8s) → 问题拆解(15s) → 干货×2(各12s) → 升华收尾(10s)

视觉：剧情画面 + 干净科普画面混合，兼顾情感共鸣与信息密度

CODEBLOCK2

Mode C — 漫剧/剧情型

适用：人生转折、励志逆袭、情感故事、人情冷暖

结构：起(8s) → 承(12s) → 转(20s) → 合(8s) + 金句收尾

视觉：角色全程驱动，强戏剧冲突，色调/情绪变化明显

CODEBLOCK3

增强版分镜字段

CODEBLOCK4

Video Prompt 公式（参考《AIGC短视频策划与制作》）：

镜头描述 + 镜头运动 + 主体内容 + 动态元素 + 风格 + 9:16竖屏

使用方式

方式一：直接对话（推荐）

直接告诉我选题或发链接，我来判断模式并执行完整流水线：
CODEBLOCK6

URL 内容提取

支持自动识别并提取以下来源的正文内容：

来源	支持状态	提取内容
微信公众号文章	✅ 完整支持	标题、作者、正文
知乎文章/回答

CODEBLOCK7

方式二：分步执行

CODEBLOCK8

方式三：旧版快速模式（兼容）

CODEBLOCK9

完整流水线（v2）

CODEBLOCK10

Step 1: 选题分析

自动检测三要素：

- 剧情关键词：失业/逆袭/情感/故事/第一人称经历 → Mode C
混合关键词：职场/认知/赚钱/成长 → Mode B
干货关键词：教程/数据/科普/技术/行业报告 → Mode A

Step 2: 增强分镜生成（参考 waoowaoo 多阶段架构）

- Phase 1：结构规划（镜头数量、景别、场景类型）
Phase 2：运镜+表演（cinematography + acting 并行）
Phase 3：细节补充 + video_prompt 生成

Step 3: TTS 配音（v2 — Harness 模式）

Harness 核心思路：在 TTS 这个不确定节点外面套「校验 → 修复 → 循环」控制环，让输出趋向收敛。

四个组件：

组件	作用
Chunk 化	按句子切分（≤200字/段），改一个词只重做该 chunk
约束系统（Rules）

默认启用 Harness（--no-harness 可关闭）：

CODEBLOCK11

自动修复机制：

- 确定性预检未通过 → 自动修复文本 → 重新生成（最多 3 轮）
超过 3 轮 → 标记 needs_human=True，人工处理
语义校验（Whisper）未通过 → 标记人工处理

Whisper 语义校验（可选，需安装）：
CODEBLOCK12

Step 4: AI 视频片段（Hailuo）

CODEBLOCK13

Step 5: FFmpeg 混剪

CODEBLOCK14

Step 6: 添加配音

CODEBLOCK15

数字分身（方案B，需IMA Key）

CODEBLOCK16

输出目录

CODEBLOCK17

Remotion 动画渲染引擎（v2 新增）

Remotion 适合精确动画/流程图/字幕同步类内容，比 Hailuo 更适合科普动画。

快速使用

CODEBLOCK18

竖屏字号规范（视频号 · 9:16 · 1080×1920）

⚠️ 视频号竖屏字体最小底线 20px。14-16px 在手机上看基本不可读。

固定字号标准

元素	字号	字重	说明
主标题	72px	Semibold (600)	前三秒抓眼球
二级标题/节点

配色标准（Apple 高级科技风）

用途	色值	说明
背景	INLINECODE6	深空黑渐变
主文字

#FFFFFF | 纯白 | | 强调色 | #007AFF | Apple 蓝（唯一强调色） | | 次要文字 | #8E8E93 | 浅灰 | | 边框/卡片 | #3a3a3c / #2c2c2e | — |

⚠️ 只用黑白+一个强调色，科技类最忌颜色杂乱。

安全区规范

CODEBLOCK19

布局常量

CODEBLOCK20

字号配置（固定值，不缩放）

CODEBLOCK21

Apple 风格模板

技术干货/源码解读类内容推荐使用 Apple 风格模板，已内置可复用组件：

CODEBLOCK22

详见 templates/apple/README.md。

竖屏安全布局规范

竖屏视频必须考虑系统 UI 遮挡，所有内容不得超出安全区域：

CODEBLOCK23

布局三原则：

1. 固定高度：每张卡片用固定 height，不用 padding 撑开，防止内容溢出
统一宽度：同一场景所有卡片用同一 width，视觉更整洁
垂直居中：stackTop = safeTop + (availableH - TOTAL_H) / 2，内容始终在屏幕中央

Apple 风格设计规范（推荐）

适用于技术干货/源码解读/知识科普类内容，参考 Apple 发布会的视觉风格。

Apple 设计 Token（精简版）

CODEBLOCK24

Apple 风格动画规范

CODEBLOCK25

Apple 风格图表组件（内置于 `AppleShared.tsx`）

组件	用途	关键参数
INLINECODE17	深空黑渐变背景	—
INLINECODE18

左上角场景标签 | text, startFrame, color | | HeroTitle | 页面大标题 | text, startFrame, size, color | | LayerStack | 分层堆栈（四层框架） | layers[{label, sub, color}], startFrame | | FlowNode | 流程图节点圆 | label, x, y, color, startFrame, size | | ArrowSVG | 箭头连接线 | x1, y1, x2, y2, color, startFrame | | NineGrid | 九宫格 | items[], startFrame | | PipelineFlow | 横向管线流 | steps[{label, sub, color}], startFrame | | FuseSteps | 熔断器步骤列表 | startFrame | | ToolGrid | 工具网格 | tools[], startFrame | | EngineSpin | 引擎旋转 SVG | startFrame | | TagGroup | 标签组 | tags[{text, color}], startFrame | | TagPill | 单个标签 | text, color |

Apple 风格布局模板

CODEBLOCK26

竖屏布局安全区参考

CODEBLOCK27

列表类场景设计模式：全部可见 + 当前高亮

对于「N 层结构」「N 个问题」类内容，推荐：

CODEBLOCK28

优势：

- 观众始终能看到整体结构，有全局感
当前层高亮 + 进度条提供局部焦点
切换时视觉过渡自然，不会有「突然出现/消失」的感觉

场景节奏设计规范

每个场景必须包含分阶段动画，避免内容停驻感：

CODEBLOCK29

标准工作流（Remotion + TTS 同步）

CODEBLOCK30

视频号平台规范

参数	要求	当前项目设置
时长	15秒～10分钟（推荐60秒干货型，5分钟深度内容）	5分钟
封面

⚠️ 字体规范：竖屏 9:16 视频中，1080px 宽度下：

- 标题/金句：96-144px（约 2.5-3.7cm 实际宽度）
正文/旁白：48-72px（约 1.2-1.8cm）
底部字幕：40-48px
所有组件已按此比例放大（相比原始 Remotion 模板）

发送前压缩（微信 CDN 限制）

微信视频号上传有文件大小限制（约 5MB），直接发送过大的 MP4 会报 CDN 500 错误。

CODEBLOCK31

视频号发布检查清单

- [ ] 时长 15秒～3分钟
[ ] 封面有标题/话题感，第一帧抓眼球
[ ] 字幕已添加（剪映AI字幕）
[ ] BGM 热门且不侵权
[ ] 话题标签 3-5个
[ ] 视频比例符合目标平台
[ ] 结尾有关注引导

v2 新增功能索引

功能	位置	说明
TTS Harness	INLINECODE30	chunk + 规范化 + 双层评估 + 跨轮记忆
TTS 语速控制

七、v3 更新记录

已安装依赖 skills

- remotion-video-toolkit — Remotion 完整工具手册
INLINECODE46 — Web 动画规范（GPU 加速属性、timing functions）

模板文件

- templates/apple/AppleShared.tsx — Apple 风格可复用组件库（13个组件）
INLINECODE48 — Apple 模板使用文档

本次优化改动
改动文件说明
TTS 合并 bug 修复 INLINECODE49 shutil/os 移到文件顶部统一导入
Apple 风格模板
`templates/apple/` | 深空黑渐变 + Apple 色板 + 大字标题 |

改动	文件	说明
TTS 合并 bug 修复	INLINECODE49	shutil/os 移到文件顶部统一导入
Apple 风格模板

Apple 风格组件（13个）

AppleBg · SceneTag · HeroTitle · LayerStack · FlowNode · ArrowSVG · NineGrid · PipelineFlow · FuseSteps · ToolGrid · EngineSpin · TagGroup · INLINECODE66

videogen v2 — 视频号 AI 短视频自动化生产流水线

⚠️ 重要前置说明

API 体系

API Key 类型	开头	支持能力
MiniMax Key	sk-cp-	TTS (speech-2.8-hd) ✅、Hailuo 视频生成 ✅、Music ❌
IMA Key

ima_ | SeeDream 生图、Wan/Kling 视频（数字分身必需） |

每日额度：usage limit exceeded (2056) 报错表示当日 Hailuo 视频额度耗尽，需次日恢复。当前 key 不支持 music-2.5+。

API 错误处理规范

错误码含义处理
─────────────────────────────────────────────────────────────
2056 usage limit exceeded 跳过该片段继续后续步骤
其他异常未知错误记录错误，换策略继续，不卡死

三种内容模式

系统根据选题自动判断最优内容模式（可手动指定覆盖）：

Mode A — 纯干货型

适用：财经分析、技术教程、行业报告、数据解读、科普讲解

结构：开场痛点(3s) → 核心要点×3(各12s) → 金句收尾(9s)

视觉：PPT/图表为主，AI点缀关键帧（数字动画、光芒效果）

开场 → 数据页 → 讲解页 → 数据页 → 讲解页 → 数据页 → 讲解页 → 金句

Mode B — 剧情+科普型 ✨ 新版主打

适用：职业发展、认知升级、社会洞察、励志干货

结构：剧情钩子(8s) → 问题拆解(15s) → 干货×2(各12s) → 升华收尾(10s)

视觉：剧情画面 + 干净科普画面混合，兼顾情感共鸣与信息密度

剧情开场(困境) → 问题拆解 → 剧情演绎+干货 → 剧情演绎+干货 → 升华+关注引导

Mode C — 漫剧/剧情型

适用：人生转折、励志逆袭、情感故事、人情冷暖

结构：起(8s) → 承(12s) → 转(20s) → 合(8s) + 金句收尾

视觉：角色全程驱动，强戏剧冲突，色调/情绪变化明显

建立(平凡) → 转折(至暗) → 挣扎 → 行动序列×3 → 蜕变(成功) → 金句

增强版分镜字段

json
{
panel_number: 1,
scene_type: 剧情场景 | 知识讲解 | 数据展示 | 过渡页,
shot_type: 特写 | 近景/中景 | 中景 | 全景 | 远景/建立景 | POV主观视角,
camera_move: 固定镜头 | 推进 | 拉出 | 左摇 | 右摇 | 上摇 | 下摇 | 移动摄影 | 跟随,
description: 画面文字描述（供PPT/绘图AI使用）,
video_prompt: Hailuo视频生成Prompt（镜头控制+主体+氛围+动态+风格）,
narration: 旁白/台词,
duration: 5,
transition: 硬切 | 淡入淡出 | 溶解 | 滑入
}

Video Prompt 公式（参考《AIGC短视频策划与制作》）：

镜头描述 + 镜头运动 + 主体内容 + 动态元素 + 风格 + 9:16竖屏

使用方式

方式一：直接对话（推荐）

直接告诉我选题或发链接，我来判断模式并执行完整流水线：

python scripts/v2/run_pipeline.py gen 选题内容
python scripts/v2/run_pipeline.py gen https://mp.weixin.qq.com/s/xxx # 微信文章
python scripts/v2/run_pipeline.py gen https://zhuanlan.zhihu.com/p/xxx # 知乎文章

URL 内容提取

支持自动识别并提取以下来源的正文内容：

来源	支持状态	提取内容
微信公众号文章	✅ 完整支持	标题、作者、正文
知乎文章/回答

bash

单独测试 URL 提取

python scripts/v2/url_extractor.py https://mp.weixin.qq.com/s/xxx
python scripts/v2/url_extractor.py https://zhuanlan.zhihu.com/p/xxx --summarize

提取 + 生成摘要 + 生成分镜（管道）

python scripts/v2/url_extractor.py URL --summarize -o extracted.json

方式二：分步执行

bash

Step 1: 分析选题（自动检测模式）

python scripts/v2/run_pipeline.py analyze AI将取代哪些职业

Step 2: 生成分镜（可指定模式）

python scripts/v2/run_pipeline.py storyboard 失业后的逆袭之路 --mode auto

Step 3: 完整流水线

python scripts/v2/run_pipeline.py gen 选题 --mode auto --duration 60

方式三：旧版快速模式（兼容）

bash
bash skills/videogen/scripts/buildcomposite.sh [slidevideo] [output] [clips...]

完整流水线（v2）

选题 → [自动模式检测] → 分镜生成 → TTS配音 → AI视频片段 → FFmpeg混剪 → 最终视频

Step 1: 选题分析

自动检测三要素：

- 剧情关键词：失业/逆袭/情感/故事/第一人称经历 → Mode C
混合关键词：职场/认知/赚钱/成长 → Mode B
干货关键词：教程/数据/科普/技术/行业报告 → Mode A

Step 2: 增强分镜生成（参考 waoowaoo 多阶段架构）

- Phase 1：结构规划（镜头数量、景别、场景类型）
Phase 2：运镜+表演（cinematography + acting 并行）
Phase 3：细节补充 + video_prompt 生成

Step 3: TTS 配音（v2 — Harness 模式）

Harness 核心思路：在 TTS 这个不确定节点外面套「校验 → 修复 → 循环」控制环，让输出趋向收敛。

四个组件：

组件	作用
Chunk 化	按句子切分（≤200字/段），改一个词只重做该 chunk
约束系统（Rules）

默认启用 Harness（--no-harness 可关闭）：

bash

Harness 模式（默认）

python scripts/v2/run_pipeline.py gen 选题 --mode auto --duration 60

关闭 Harness（快速旧版）

python scripts/v2/run_pipeline.py gen 选题 --no-harness

单独测试 TTS Harness

python scripts/v2/tts_harness.py 配音文本 --output minimax-output

指定音色

python scripts/v2/run_pipeline.py gen 选题 --voice female-yujie

自动修复机制：

- 确定性预检未通过 → 自动修复文本 → 重新生成（最多 3 轮）
超过 3 轮 → 标记 needs_human=True，人工处理
语义校验（Whisper）未通过 → 标记人工处理

Whisper 语义校验（可选，需安装）：
bash
pip install openai-whisper

重新运行 Harness 时自动启用

Step 4: AI 视频片段（Hailuo）

bash

t2v（文生视频）— 知识/剧情场景

python skills/minimax-multimodal/scripts/video/generate_video.py \
--mode t2v \
--prompt medium shot, slow push-in, ... modern cinematic, 9:16 vertical \
--duration 6 \
--output minimax

videogen视频AI流水线

videogen

videogen v2 — 视频号 AI 短视频自动化生产流水线

⚠️ 重要前置说明

API 体系

API 错误处理规范

三种内容模式

Mode A — 纯干货型

Mode B — 剧情+科普型 ✨ 新版主打

Mode C — 漫剧/剧情型

增强版分镜字段

使用方式

方式一：直接对话（推荐）

URL 内容提取

方式二：分步执行

方式三：旧版快速模式（兼容）

完整流水线（v2）

Step 1: 选题分析

Step 2: 增强分镜生成（参考 waoowaoo 多阶段架构）

Step 3: TTS 配音（v2 — Harness 模式）

Step 4: AI 视频片段（Hailuo）

Step 5: FFmpeg 混剪

Step 6: 添加配音

数字分身（方案B，需IMA Key）

输出目录

Remotion 动画渲染引擎（v2 新增）

快速使用

竖屏字号规范（视频号 · 9:16 · 1080×1920）

固定字号标准

配色标准（Apple 高级科技风）

安全区规范

布局常量

字号配置（固定值，不缩放）

Apple 风格模板

竖屏安全布局规范

Apple 风格设计规范（推荐）

Apple 设计 Token（精简版）

Apple 风格动画规范

Apple 风格图表组件（内置于 AppleShared.tsx）

Apple 风格布局模板

竖屏布局安全区参考

列表类场景设计模式：全部可见 + 当前高亮

场景节奏设计规范

标准工作流（Remotion + TTS 同步）

视频号平台规范

发送前压缩（微信 CDN 限制）

视频号发布检查清单

v2 新增功能索引

七、v3 更新记录

已安装依赖 skills

模板文件

本次优化改动改动文件说明TTS 合并 bug 修复INLINECODE49shutil/os 移到文件顶部统一导入Apple 风格模板 templates/apple/ | 深空黑渐变 + Apple 色板 + 大字标题 |

Apple 风格组件（13个）

videogen v2 — 视频号 AI 短视频自动化生产流水线

⚠️ 重要前置说明

API 体系

API 错误处理规范

三种内容模式

Mode A — 纯干货型

Mode B — 剧情+科普型 ✨ 新版主打

Mode C — 漫剧/剧情型

增强版分镜字段

使用方式

方式一：直接对话（推荐）

URL 内容提取

单独测试 URL 提取

提取 + 生成摘要 + 生成分镜（管道）

方式二：分步执行

Step 1: 分析选题（自动检测模式）

Step 2: 生成分镜（可指定模式）

Step 3: 完整流水线

方式三：旧版快速模式（兼容）

完整流水线（v2）

Step 1: 选题分析

Step 2: 增强分镜生成（参考 waoowaoo 多阶段架构）

Step 3: TTS 配音（v2 — Harness 模式）

Harness 模式（默认）

关闭 Harness（快速旧版）

单独测试 TTS Harness

指定音色

Apple 风格图表组件（内置于 `AppleShared.tsx`）

本次优化改动
改动文件说明
TTS 合并 bug 修复 INLINECODE49 shutil/os 移到文件顶部统一导入
Apple 风格模板
`templates/apple/` | 深空黑渐变 + Apple 色板 + 大字标题 |