返回顶部
v

vibe-coding-pro氛围编码

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
81
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

vibe-coding-pro

VibeCoding Pro

真正交付可用软件的AI编程升级版。

VibeCoding很有趣。VibeCoding Pro则可靠



VibeCoding的问题所在

大多数AI编程工作流看起来是这样的:

你 → 构建一个登录表单 → AI生成 → 看起来不错! → 发布上线

这就是问题所在。

为什么有问题: 生成代码的同一个AI来评判代码是否可用。它存在认知承诺偏差——它无法客观评估自己刚刚构建的内容,因为它已经对方案做出了承诺。漏洞得以存活。边界情况被破坏。用户体验问题被发布上线。

证据: Anthropic 2026年的工程研究进行了一项实验。单独的Claude智能体生成了2D游戏制作工具,但核心游戏循环从根本上被破坏了——实体被渲染出来,但完全忽略了所有玩家输入。智能体称自己的输出可用。只有当另一个独立的评估智能体实际点击操作游戏时,才发现实体定义与游戏运行时之间的连接被切断了。



VibeCoding Pro的正确做法

用户目标/规格说明

┌─────────────┐
│ 生成器 │ ← 根据规格说明构建X
│ (vibe) │
└──────┬──────┘
│ 产物

┌────────────────────────────────────┐
│ 评估器 │
│ • 读取规格说明(非生成器输出) │
│ • 在真实浏览器中打开URL │
│ • 点击、填写、导航 │
│ • 按评分标准打分(0-100) │
│ • 返回结构化JSON反馈 │
└────────────────┬───────────────────┘
│ 分数 + 反馈

┌────────────────┐
│ 分数 ≥ 阈值? │
│ 是 → 完成 │
│ 否 → 生成器 │
└────────┬────────┘
└── 循环(5-15轮)

结构性修复: 评估器从不读取生成器的代码、推理过程或提交信息。它只读取规格说明并操作已部署的产物。这从架构层面消除了锚定偏差——而非通过巧妙的提示词。



何时使用VibeCoding Pro


场景适用?原因
具有真实交互的React / H5 / Web UI✅ 是Playwright可以实际点击操作
多步骤表单流程(向导、结账、引导流程)
✅ 是 | 评估器可以执行每一步 |
| API + 前端集成 | ✅ 是 | 评估器调用端点并检查数据库状态 |
| 单一工具函数 | ⚠️ 可选 | 可能过于大材小用 |
| 纯后端逻辑(无UI) | ⚠️ 使用API评估器模板 | 评估器直接调用端点 |
| 设计敏感型工作(品牌标识、布局) | ✅ 是 | 人机协同变体效果最佳 |


快速开始

第一步:编写规格说明契约

规格说明是最重要的产物。它是评估器的唯一参考。

markdown

规格说明:[功能名称] v1.0

目标

[一句话:完成时应该呈现什么?]

功能需求

  • - FR-001:[具体、可测试、可观察]
  • FR-002:[...]

交互规格说明

  • - UI-001:[用户点击X → 发生Y]
  • UI-002:[表单接受Y类型,拒绝N类型]

验收标准

  • - AC-001:[可衡量的结果]
  • AC-002:[...]

不包含范围

  • - [明确不要求的内容]

测试场景

场景1: 快乐路径——普通用户完成主要操作 场景2: 边界情况——空数据、错误状态 场景3: 极限情况——最大输入长度、并发操作

第二步:运行循环

  1. 1. 生成器智能体接收:规格说明 + 迭代历史 + 先前评估器反馈
  2. 生成器构建产物并部署
  3. 评估器智能体接收:规格说明 + 已部署URL(非生成器代码)
  4. 评估器打开浏览器,点击操作测试场景,截图,评分
  5. 评估器返回带有分数细分的结构化JSON
  6. 如果分数 ≥ 阈值 → 完成。如果否 → 返回生成器。

架构参考

参见 references/architecture.md:

  • - 四种架构变体(顺序/并行/分阶段/人机协同)
  • GAN理论深度解析及其工作原理
  • 规格说明契约模板(可直接复制粘贴)
  • 历史格式和循环控制逻辑
  • 反模式及其修复方法



评估器模板

参见 references/evaluator-prompts.md:

模板何时使用评估器模式
Web/H5 UIReact/Vue/H5/Web组件Playwright浏览器自动化
API/后端
REST端点、微服务 | 直接HTTP调用 |
| 内容/文档 | 报告、文案、文档 | 结构化文本评分 |

每个模板包含:

  • - 系统提示词(为评估器独立性校准)
  • 带评分标准的用户提示词
  • 必需的JSON输出模式
  • 4个校准示例(30/60/85/95分数范围)



迭代循环脚本

参见 scripts/iteration_loop.py 获取完整的Python实现:

  • - rungenerator() — 适配你的智能体(Claude API、OpenAI、子智能体等)
  • runevaluator() — 适配你的QA技术栈(Playwright、HTTP客户端等)
  • 完整循环控制:平台期检测、方法切换、升级处理
  • 命令行:python iteration_loop.py --spec spec.md --url http://localhost:3000 --threshold 85 --rounds 15

参见 scripts/calibrate_evaluator.py 获取评估器校准工具:

  • - 在生产环境前对4个已知示例运行
  • 自动检测分数漂移并建议评分标准调整



评分标准

默认评分标准(按领域调整权重):

维度权重衡量内容
功能完整性30%每个规格说明需求端到端可用
交互质量
25% | 真实用户视角的点击/表单/导航行为 |
| 边界情况处理 | 20% | 错误状态、空数据、边界输入 |
| 代码/设计质量 | 15% | 一致性、可读性、无反模式 |
| 原创性/工艺 | 10% | 避免模板默认值和AI套路模式 |

阈值指南:

使用场景通过阈值最大轮数
内部原型7010
面向用户的功能
85 | 15 |
| 生产环境关键功能 | 95 | 20 + 人工审核 |


为什么有效(研究背景)

来源: Anthropic工程团队,面向长期应用开发的控制框架设计(2026年3月)

关键发现:

  • - 单独Claude智能体在16功能游戏制作工具上:核心游戏循环被破坏,实体运行时连接被切断
  • 完整控制框架(生成器+评估器):完全可用,包含精灵动画、音效、AI辅助关卡设计
  • Opus 4.6 vs 4.5:改进的规划能力减少了所需控制框架的复杂度
  • 评估器的价值是情境性的:当任务超出模型单独可靠完成的范围时,值得投入成本

GAN理论类比: 生成器试图欺骗评估器。评估器试图发现生成器遗漏的失败。对抗性张力推动质量提升。与机器学习GAN不同,这使用自然语言反馈——完全可检查和可引导。



常见错误


错误失败原因修复方法
同一智能体生成和评估认知锚定偏差使用独立智能体和独立提示词
评估器读取生成器的代码
评判意图而非现实 | 仅展示已部署的URL |
| 跳过校准 | 分数膨胀/漂移 | 先运行3-5个已知示例 |
| 模糊评分(7/10看起来还行) | 无法操作的反馈 | 要求按评分标准输出结构化JSON |
| 轮数太少 | 生成器从未收敛 | 复杂UI至少10轮 |
| 从不切换方法 | 陷入局部最优 | 连续3轮平台期后切换策略 |
| 用于琐碎任务 | 开销大于价值 | 保留给多功能/整页工作 |


OpenClaw集成

在OpenClaw中,使用coder + tester子智能体:

生成器 → sessions_spawn(agentId=coder, ...)
评估器 → sessions_spawn(agentId=tester, ...

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 vibecoding-pro-1775934327 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 vibecoding-pro-1775934327 技能

通过命令行安装

skillhub install vibecoding-pro-1775934327

下载

⬇ 下载 vibe-coding-pro v1.0.0(免费)

文件大小: 18.89 KB | 发布时间: 2026-4-12 11:50

v1.0.0 最新 2026-4-12 11:50
VibeCoding Pro 1.0.0 – Initial Release

- Introduces the Generator-Evaluator dual-agent pattern to separate code generation from independent QA, inspired by Anthropic research and GAN theory.
- Eliminates AI self-evaluation bias by having Evaluator agents interact with deployed artifacts exclusively via browser, based solely on the spec.
- Provides detailed usage guides, architecture references, evaluator prompt templates, and scripts for real-world integration and calibration.
- Designed for engineering-grade workflows: multi-round UI/component development, automated feedback, and rigorous acceptance gating.
- Includes scoring rubrics, calibration tools, and step-by-step instructions for building reliable AI-assisted software.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部