Delegation — Think Once, Execute Cheap

Opus is the brain. Everything else is hands.
This skill is the translation layer between insight and execution.

Core Principle

Never use a $0.10/task model for $0.002/task work.
Never use a $0.002/task model for $0.10/task thinking.

CODEBLOCK0

Phase 0: VENTURE EVAL (new ideas only — skip for defined tasks)

When Ryan has a raw idea, before any decomposition, run the Venture Eval Protocol. This replaces VC due diligence with builder-optimized evaluation. 3 rounds max, then decide.

Round 1: Irrational Optimism (Flash — cheap, fast)

Prompt a cheap model to go MAXIMUM bullish. No skepticism allowed.

CODEBLOCK1

Round 2: Brutal Fix (Sonnet — stronger reasoning)

Take Round 1's output and try to KILL it:

CODEBLOCK2

Round 3: Questionnaire (only if Round 2 says BUILD)

If the idea survives, generate 5 questions that MUST be answered before committing resources:

CODEBLOCK3

Ryan answers the 5 questions → answers feed into Phase 1 decomposition.

Token Budget for Venture Eval

Round	Model	Est. Tokens	Cost
R1: Optimism	flash	~1500	$0.003
R2: Fix

sonnet | ~2000 | $0.06 | | R3: Questions | flash | ~800 | $0.002 | | Total | | ~4300 | $0.065 |

If we can't resolve it in $0.07 of reasoning, the idea isn't clear enough. Park it and revisit when more signal arrives.

When NOT to Venture Eval

- Task is already defined (bug fix, feature request, maintenance)
Ryan explicitly says what to build
It's a client project with specs
It's infrastructure/tooling work

Phase 1: THINK (Opus only — ~500-2000 tokens output)

This is the ONLY phase that uses Opus. Everything after is delegated.

1a. Opportunity Frame (if Venture Eval was skipped)

Answer in ≤150 words:

CODEBLOCK4

1b. Decompose into Atoms

Break the work into the smallest independently testable units.

Rules:

- Each atom has ONE clear output (a file, a URL, a data point, a yes/no answer)
Each atom can be verified by a machine (not "looks good" — a command that returns pass/fail)
Each atom takes <15 min for a sub-agent
If an atom takes >15 min, it's not atomic — split again
Dependencies are explicit (atom B needs atom A's output file)

Output format:

CODEBLOCK5

1c. Model Assignment

CODEBLOCK6

Default: flash. Only upgrade when there's a reason.

1d. Eval Specification

Every atom gets a machine-verifiable eval:

Eval Type	Example	Check
File exists	INLINECODE0	INLINECODE1
Build passes

Next.js builds | npm run build; echo $? → 0 |
| HTTP 200 | Site is live | curl -so /dev/null -w "%{http_code}" [url] → 200 |
| Content check | ≥3 competitors | grep -c "^##" research/pricing.md ≥ 3 |
| Screenshot | UI renders correctly | Browser screenshot + image model eval |

Phase 2: PLAN (still Opus, just ordering — fast)

1. Topological sort by dependencies
Group into waves (parallel atoms)
Estimate total time = longest path through dependency graph
Estimate total cost = sum of (model cost × est. time)

Write full plan to workspace/DELEGATION_PLAN.md.

Phase 3: EXECUTE (Opus hands off — never touches work again)

Hand DELEGATION_PLAN.md to orchestrator → spawner pipeline.

Opus's ONLY role during execution: monitor completion events, re-route on failure.

Opus does NOT: write code, generate content, run builds, do research queries.

Phase 4: EVAL (automated)

After each atom: run eval command → pass/fail → retry with model escalation if needed.

CODEBLOCK7

Phase 5: LEARN (feeds auto-improve)

Append timing + pass/fail per atom to .learnings/LEARNINGS.md.

Anti-patterns

- ❌ Opus writing code
❌ Subjective evals ("looks nice")
❌ Atoms bigger than 15 min
❌ Skipping the frame for new opportunities
❌ Re-thinking during execution (plan is locked after Phase 2)
❌ Spending >$0.07 reasoning about an unvalidated idea
❌ Using gptoss for <20 items

技能名称: 授权

授权——一次思考，廉价执行

Opus是大脑。其他一切都是双手。
此技能是洞察与执行之间的转换层。

核心原则

永远不要用0.10美元/任务模型处理0.002美元/任务的工作。
永远不要用0.002美元/任务模型处理0.10美元/任务的思考。

机会 ──► OPUS思考 ──► 原子任务队列 ──► 廉价模型执行 ──► 评估验证 ──► 交付
（一次）（书面产物）（sonnet/flash/gptoss）（自动化）

阶段0：风险评估（仅限新想法——已定义任务跳过）

当Ryan有一个原始想法时，在任何分解之前，运行风险评估协议。这用构建者优化的评估取代了VC尽职调查。最多3轮，然后决策。

第1轮：非理性乐观（Flash——廉价、快速）

提示一个廉价模型走向最大程度的看涨。不允许怀疑。

你是一个非理性乐观的创始人，正在评估这个想法：{IDEA}

假设一切顺利。回答：

1. 是什么：一句话
谁付费：具体买家（不是企业——命名用户画像）
为什么是现在：世界上发生了什么变化使这在今天成为可能
总可寻址市场：自下而上，不是X十亿美元的1%——多少买家 × 价格
不公平优势：我们已经拥有什么（基础设施、数据、分销渠道、技能）
第一笔1000美元：赚到第一笔一千美元收入的确切步骤
10倍场景：如果一切顺利两年，这会是什么样子
现有资产：这可以接入我们的哪些产品/管道/技能

第2轮：残酷修正（Sonnet——更强的推理能力）

获取第1轮的输出并尝试杀死它：

你是一个无情的VC合伙人，正在审查这个推介：{ROUND1OUTPUT}

对于8个要点中的每一个，要么：

- 确认：证据支持它，引用原因
修正：主张是错误的但可修复——方法如下
杀死：这从根本上被破坏且不可修复——原因如下

然后回答：

- 最大风险：杀死这个想法的一件事
我们能否用<100美元测试它？：是/否 + 如何测试
可比退出：相邻领域已出售/IPO的3家公司
裁决：构建 / 搁置 / 杀死（附一句话理由）

第3轮：问卷（仅当第2轮说构建时）

如果想法存活下来，生成5个在投入资源前必须回答的问题：

基于这个已评估的想法：{ROUND2OUTPUT}

精确生成5个问题，其中：

- 每个问题可以用数据（而非观点）回答
每个答案会实质性改变构建计划
每个问题可以在<30分钟内研究清楚
格式：问题 | 如何回答 | 如果是与否分别会改变什么

Ryan回答这5个问题 → 答案输入阶段1的分解。

风险评估的代币预算

轮次	模型	估计代币数	成本
第1轮：乐观	flash	~1500	$0.003
第2轮：修正

sonnet | ~2000 | $0.06 | | 第3轮：问题 | flash | ~800 | $0.002 | | 总计 | | ~4300 | $0.065 |

如果我们无法用0.07美元的推理解决它，那么这个想法还不够清晰。 搁置它，等有更多信号时再重新审视。

何时不进行风险评估

- 任务已定义（错误修复、功能请求、维护）
Ryan明确说明了要构建什么
这是一个有规格说明的客户项目
这是基础设施/工具类工作

阶段1：思考（仅限Opus——约500-2000代币输出）

这是唯一使用Opus的阶段。之后的一切都被授权出去。

1a. 机会框架（如果跳过了风险评估）

在≤150词内回答：

是什么：[一句话——这是什么]
谁：[目标客户——要具体，不是中小企业]
为什么是现在：[时机信号——监管、技术转变、市场缺口]
总可寻址市场：[总可寻址市场——即使是粗略的粗略估算]
竞争对手：[前3名，他们的弱点]
我们的优势：[我们拥有而他们没有的——现有基础设施、分销渠道、数据]
切入点：[我们进入的具体楔形——不是整个市场]

1b. 分解为原子

将工作分解为最小可独立测试单元。

规则：

- 每个原子有一个清晰的输出（一个文件、一个URL、一个数据点、一个是/否答案）
每个原子可以由机器验证（不是看起来不错——是一个返回通过/失败的命令）
每个原子对子代理来说耗时<15分钟
如果一个原子耗时>15分钟，它就不是原子的——再次拆分
依赖关系是明确的（原子B需要原子A的输出文件）

输出格式：

markdown

#	原子	输出	评估	模型	依赖	估计
1	研究竞争对手定价	research/pricing.md	≥3个竞争对手列出	flash	—	3分钟
2

1c. 模型分配

是代码生成吗？ → sonnet
是批量/模板/分类吗？ → flash
是20+项的批次吗？ → gptoss
需要>100K上下文吗？ → gemini-pro
是面向客户的文案吗？ → opus（例外）
是是/否检查吗？ → flash

默认：flash。 只有在有理由时才升级。

1d. 评估规范

每个原子都有一个机器可验证的评估：

评估类型	示例	检查方式
文件存在	research/pricing.md	test -f research/pricing.md
构建通过

Next.js构建 | npm run build; echo $? → 0 |
| HTTP 200 | 网站已上线 | curl -so /dev/null -w %{http_code} [url] → 200 |
| 内容检查 | ≥3个竞争对手 | grep -c ^## research/pricing.md ≥ 3 |
| 截图 | UI正确渲染 | 浏览器截图 + 图像模型评估 |

阶段2：规划（仍用Opus，仅排序——快速）

1. 按依赖关系进行拓扑排序
分组为波次（并行原子）
估计总时间 = 通过依赖关系图的最长路径
估计总成本 = 总和（模型成本 × 估计时间）

将完整计划写入workspace/DELEGATION_PLAN.md。

阶段3：执行（Opus放手——不再接触工作）

将DELEGATION_PLAN.md交给编排器 → 生成器管道。

Opus在执行期间的唯一角色：监控完成事件，在失败时重新路由。

Opus不做： 编写代码、生成内容、运行构建、进行研究查询。

阶段4：评估（自动化）

每个原子之后：运行评估命令 → 通过/失败 → 必要时进行模型升级重试。

失败 → 重试相同模型 → 升级模型（flash→sonnet→opus） → 标记为失败

阶段5：学习（反馈自动改进）

将每个原子的耗时 + 通过/失败追加到.learnings/LEARNINGS.md。

反模式

- ❌ Opus编写代码
❌ 主观评估（看起来不错）
❌ 原子大于15分钟
❌ 对新机会跳过框架
❌ 在执行期间重新思考（阶段2后计划被锁定）
❌ 花费>$0.07推理一个未经验证的想法
❌ 对<20个项目使用gptoss

delegation任务分解委派

delegation

Delegation — Think Once, Execute Cheap

Core Principle

Phase 0: VENTURE EVAL (new ideas only — skip for defined tasks)

Round 1: Irrational Optimism (Flash — cheap, fast)

Round 2: Brutal Fix (Sonnet — stronger reasoning)

Round 3: Questionnaire (only if Round 2 says BUILD)

Token Budget for Venture Eval

When NOT to Venture Eval

Phase 1: THINK (Opus only — ~500-2000 tokens output)

1a. Opportunity Frame (if Venture Eval was skipped)

1b. Decompose into Atoms

1c. Model Assignment

1d. Eval Specification

Phase 2: PLAN (still Opus, just ordering — fast)

Phase 3: EXECUTE (Opus hands off — never touches work again)

Phase 4: EVAL (automated)

Phase 5: LEARN (feeds auto-improve)

Anti-patterns

授权——一次思考，廉价执行

核心原则

阶段0：风险评估（仅限新想法——已定义任务跳过）

第1轮：非理性乐观（Flash——廉价、快速）

第2轮：残酷修正（Sonnet——更强的推理能力）

第3轮：问卷（仅当第2轮说构建时）

风险评估的代币预算

何时不进行风险评估

阶段1：思考（仅限Opus——约500-2000代币输出）

1a. 机会框架（如果跳过了风险评估）

1b. 分解为原子

1c. 模型分配

1d. 评估规范

阶段2：规划（仍用Opus，仅排序——快速）

阶段3：执行（Opus放手——不再接触工作）

阶段4：评估（自动化）

阶段5：学习（反馈自动改进）

反模式

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement