Scenario	Apply?	Why
React / H5 / Web UI with real interactions	✅ Yes	Playwright can actually click through it
Multi-step form flows (wizard, checkout, onboarding)

Template	When to Use	Evaluator Mode
Web/H5 UI	React/Vue/H5/Web components	Playwright browser automation
API/Backend

Dimension	Weight	Measures
Functional completeness	30%	Every spec requirement works end-to-end
Interaction quality

Use Case	PASSTHRESHOLD	MAXROUNDS
Internal prototype	70	10
User-facing feature

Mistake	Why It Fails	Fix
Same agent generates and evaluates	Cognitive anchoring bias	Separate agents with separate prompts
Evaluator reads generator's code

VibeCoding Pro

真正交付可用软件的AI编程升级版。

VibeCoding很有趣。VibeCoding Pro则可靠。

VibeCoding的问题所在

大多数AI编程工作流看起来是这样的：

你 → 构建一个登录表单 → AI生成 → 看起来不错！ → 发布上线
↑
这就是问题所在。

为什么有问题： 生成代码的同一个AI来评判代码是否可用。它存在认知承诺偏差——它无法客观评估自己刚刚构建的内容，因为它已经对方案做出了承诺。漏洞得以存活。边界情况被破坏。用户体验问题被发布上线。

证据： Anthropic 2026年的工程研究进行了一项实验。单独的Claude智能体生成了2D游戏制作工具，但核心游戏循环从根本上被破坏了——实体被渲染出来，但完全忽略了所有玩家输入。智能体称自己的输出可用。只有当另一个独立的评估智能体实际点击操作游戏时，才发现实体定义与游戏运行时之间的连接被切断了。

VibeCoding Pro的正确做法

用户目标/规格说明
↓
┌─────────────┐
│ 生成器 │ ← 根据规格说明构建X
│ (vibe) │
└──────┬──────┘
│ 产物
↓
┌────────────────────────────────────┐
│ 评估器 │
│ • 读取规格说明（非生成器输出） │
│ • 在真实浏览器中打开URL │
│ • 点击、填写、导航 │
│ • 按评分标准打分（0-100） │
│ • 返回结构化JSON反馈 │
└────────────────┬───────────────────┘
│ 分数 + 反馈
↓
┌────────────────┐
│ 分数 ≥ 阈值？ │
│ 是 → 完成 │
│ 否 → 生成器 │
└────────┬────────┘
└── 循环（5-15轮）

结构性修复： 评估器从不读取生成器的代码、推理过程或提交信息。它只读取规格说明并操作已部署的产物。这从架构层面消除了锚定偏差——而非通过巧妙的提示词。

何时使用VibeCoding Pro

场景	适用？	原因
具有真实交互的React / H5 / Web UI	✅ 是	Playwright可以实际点击操作
多步骤表单流程（向导、结账、引导流程）

快速开始

第一步：编写规格说明契约

规格说明是最重要的产物。它是评估器的唯一参考。

markdown

规格说明：[功能名称] v1.0

目标

[一句话：完成时应该呈现什么？]

功能需求

- FR-001：[具体、可测试、可观察]
FR-002：[...]

交互规格说明

- UI-001：[用户点击X → 发生Y]
UI-002：[表单接受Y类型，拒绝N类型]

验收标准

- AC-001：[可衡量的结果]
AC-002：[...]

不包含范围

- [明确不要求的内容]

测试场景

场景1： 快乐路径——普通用户完成主要操作 场景2： 边界情况——空数据、错误状态 场景3： 极限情况——最大输入长度、并发操作

第二步：运行循环

1. 生成器智能体接收：规格说明 + 迭代历史 + 先前评估器反馈
生成器构建产物并部署
评估器智能体接收：规格说明 + 已部署URL（非生成器代码）
评估器打开浏览器，点击操作测试场景，截图，评分
评估器返回带有分数细分的结构化JSON
如果分数 ≥ 阈值 → 完成。如果否 → 返回生成器。

架构参考

参见 references/architecture.md：

- 四种架构变体（顺序/并行/分阶段/人机协同）
GAN理论深度解析及其工作原理
规格说明契约模板（可直接复制粘贴）
历史格式和循环控制逻辑
反模式及其修复方法

评估器模板

参见 references/evaluator-prompts.md：

模板	何时使用	评估器模式
Web/H5 UI	React/Vue/H5/Web组件	Playwright浏览器自动化
API/后端

每个模板包含：

- 系统提示词（为评估器独立性校准）
带评分标准的用户提示词
必需的JSON输出模式
4个校准示例（30/60/85/95分数范围）

迭代循环脚本

参见 scripts/iteration_loop.py 获取完整的Python实现：

- rungenerator() — 适配你的智能体（Claude API、OpenAI、子智能体等）
runevaluator() — 适配你的QA技术栈（Playwright、HTTP客户端等）
完整循环控制：平台期检测、方法切换、升级处理
命令行：python iteration_loop.py --spec spec.md --url http://localhost:3000 --threshold 85 --rounds 15

参见 scripts/calibrate_evaluator.py 获取评估器校准工具：

- 在生产环境前对4个已知示例运行
自动检测分数漂移并建议评分标准调整

评分标准

默认评分标准（按领域调整权重）：

维度	权重	衡量内容
功能完整性	30%	每个规格说明需求端到端可用
交互质量

阈值指南：

使用场景	通过阈值	最大轮数
内部原型	70	10
面向用户的功能

85 | 15 |
| 生产环境关键功能 | 95 | 20 + 人工审核 |

为什么有效（研究背景）

来源： Anthropic工程团队，面向长期应用开发的控制框架设计（2026年3月）

关键发现：

- 单独Claude智能体在16功能游戏制作工具上：核心游戏循环被破坏，实体运行时连接被切断
完整控制框架（生成器+评估器）：完全可用，包含精灵动画、音效、AI辅助关卡设计
Opus 4.6 vs 4.5：改进的规划能力减少了所需控制框架的复杂度
评估器的价值是情境性的：当任务超出模型单独可靠完成的范围时，值得投入成本

GAN理论类比： 生成器试图欺骗评估器。评估器试图发现生成器遗漏的失败。对抗性张力推动质量提升。与机器学习GAN不同，这使用自然语言反馈——完全可检查和可引导。

常见错误

错误	失败原因	修复方法
同一智能体生成和评估	认知锚定偏差	使用独立智能体和独立提示词
评估器读取生成器的代码

OpenClaw集成

在OpenClaw中，使用coder + tester子智能体：

生成器 → sessions_spawn(agentId=coder, ...)
评估器 → sessions_spawn(agentId=tester, ...

vibe-coding-pro氛围编码

vibe-coding-pro

VibeCoding Pro

What VibeCoding Gets Wrong

What VibeCoding Pro Gets Right

When to Use VibeCoding Pro

Quick Start

Step 1: Write a Spec Contract

Step 2: Run the Loop

Architecture Reference

Evaluator Templates

Iteration Loop Scripts

Scoring Rubric

Why This Works (Research Background)

Common Mistakes

OpenClaw Integration

VibeCoding Pro

VibeCoding的问题所在

VibeCoding Pro的正确做法

何时使用VibeCoding Pro

快速开始

第一步：编写规格说明契约

规格说明：[功能名称] v1.0

目标

功能需求

交互规格说明

验收标准

不包含范围

测试场景

第二步：运行循环

架构参考

评估器模板

迭代循环脚本

评分标准

为什么有效（研究背景）

常见错误

OpenClaw集成

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement