Delegation — Think Once, Execute Cheap
Opus is the brain. Everything else is hands.
This skill is the translation layer between insight and execution.
Core Principle
Never use a $0.10/task model for $0.002/task work.
Never use a $0.002/task model for $0.10/task thinking.
CODEBLOCK0
Phase 0: VENTURE EVAL (new ideas only — skip for defined tasks)
When Ryan has a raw idea, before any decomposition, run the Venture Eval Protocol. This replaces VC due diligence with builder-optimized evaluation. 3 rounds max, then decide.
Round 1: Irrational Optimism (Flash — cheap, fast)
Prompt a cheap model to go MAXIMUM bullish. No skepticism allowed.
CODEBLOCK1
Round 2: Brutal Fix (Sonnet — stronger reasoning)
Take Round 1's output and try to KILL it:
CODEBLOCK2
Round 3: Questionnaire (only if Round 2 says BUILD)
If the idea survives, generate 5 questions that MUST be answered before committing resources:
CODEBLOCK3
Ryan answers the 5 questions → answers feed into Phase 1 decomposition.
Token Budget for Venture Eval
| Round | Model | Est. Tokens | Cost |
|---|
| R1: Optimism | flash | ~1500 | $0.003 |
| R2: Fix |
sonnet | ~2000 | $0.06 |
| R3: Questions | flash | ~800 | $0.002 |
|
Total | |
~4300 |
$0.065 |
If we can't resolve it in $0.07 of reasoning, the idea isn't clear enough. Park it and revisit when more signal arrives.
When NOT to Venture Eval
- - Task is already defined (bug fix, feature request, maintenance)
- Ryan explicitly says what to build
- It's a client project with specs
- It's infrastructure/tooling work
Phase 1: THINK (Opus only — ~500-2000 tokens output)
This is the ONLY phase that uses Opus. Everything after is delegated.
1a. Opportunity Frame (if Venture Eval was skipped)
Answer in ≤150 words:
CODEBLOCK4
1b. Decompose into Atoms
Break the work into the smallest independently testable units.
Rules:
- - Each atom has ONE clear output (a file, a URL, a data point, a yes/no answer)
- Each atom can be verified by a machine (not "looks good" — a command that returns pass/fail)
- Each atom takes <15 min for a sub-agent
- If an atom takes >15 min, it's not atomic — split again
- Dependencies are explicit (atom B needs atom A's output file)
Output format:
CODEBLOCK5
1c. Model Assignment
CODEBLOCK6
Default: flash. Only upgrade when there's a reason.
1d. Eval Specification
Every atom gets a machine-verifiable eval:
| Eval Type | Example | Check |
|---|
| File exists | INLINECODE0 | INLINECODE1 |
| Build passes |
Next.js builds |
npm run build; echo $? → 0 |
|
HTTP 200 | Site is live |
curl -so /dev/null -w "%{http_code}" [url] → 200 |
|
Content check | ≥3 competitors |
grep -c "^##" research/pricing.md ≥ 3 |
|
Screenshot | UI renders correctly | Browser screenshot + image model eval |
Phase 2: PLAN (still Opus, just ordering — fast)
- 1. Topological sort by dependencies
- Group into waves (parallel atoms)
- Estimate total time = longest path through dependency graph
- Estimate total cost = sum of (model cost × est. time)
Write full plan to workspace/DELEGATION_PLAN.md.
Phase 3: EXECUTE (Opus hands off — never touches work again)
Hand DELEGATION_PLAN.md to orchestrator → spawner pipeline.
Opus's ONLY role during execution: monitor completion events, re-route on failure.
Opus does NOT: write code, generate content, run builds, do research queries.
Phase 4: EVAL (automated)
After each atom: run eval command → pass/fail → retry with model escalation if needed.
CODEBLOCK7
Phase 5: LEARN (feeds auto-improve)
Append timing + pass/fail per atom to .learnings/LEARNINGS.md.
Anti-patterns
- - ❌ Opus writing code
- ❌ Subjective evals ("looks nice")
- ❌ Atoms bigger than 15 min
- ❌ Skipping the frame for new opportunities
- ❌ Re-thinking during execution (plan is locked after Phase 2)
- ❌ Spending >$0.07 reasoning about an unvalidated idea
- ❌ Using gptoss for <20 items
技能名称: 授权
授权——一次思考,廉价执行
Opus是大脑。其他一切都是双手。
此技能是洞察与执行之间的转换层。
核心原则
永远不要用0.10美元/任务模型处理0.002美元/任务的工作。
永远不要用0.002美元/任务模型处理0.10美元/任务的思考。
机会 ──► OPUS思考 ──► 原子任务队列 ──► 廉价模型执行 ──► 评估验证 ──► 交付
(一次) (书面产物) (sonnet/flash/gptoss) (自动化)
阶段0:风险评估(仅限新想法——已定义任务跳过)
当Ryan有一个原始想法时,在任何分解之前,运行风险评估协议。这用构建者优化的评估取代了VC尽职调查。最多3轮,然后决策。
第1轮:非理性乐观(Flash——廉价、快速)
提示一个廉价模型走向最大程度的看涨。不允许怀疑。
你是一个非理性乐观的创始人,正在评估这个想法:{IDEA}
假设一切顺利。回答:
- 1. 是什么:一句话
- 谁付费:具体买家(不是企业——命名用户画像)
- 为什么是现在:世界上发生了什么变化使这在今天成为可能
- 总可寻址市场:自下而上,不是X十亿美元的1%——多少买家 × 价格
- 不公平优势:我们已经拥有什么(基础设施、数据、分销渠道、技能)
- 第一笔1000美元:赚到第一笔一千美元收入的确切步骤
- 10倍场景:如果一切顺利两年,这会是什么样子
- 现有资产:这可以接入我们的哪些产品/管道/技能
第2轮:残酷修正(Sonnet——更强的推理能力)
获取第1轮的输出并尝试杀死它:
你是一个无情的VC合伙人,正在审查这个推介:{ROUND1OUTPUT}
对于8个要点中的每一个,要么:
- - 确认:证据支持它,引用原因
- 修正:主张是错误的但可修复——方法如下
- 杀死:这从根本上被破坏且不可修复——原因如下
然后回答:
- - 最大风险:杀死这个想法的一件事
- 我们能否用<100美元测试它?:是/否 + 如何测试
- 可比退出:相邻领域已出售/IPO的3家公司
- 裁决:构建 / 搁置 / 杀死(附一句话理由)
第3轮:问卷(仅当第2轮说构建时)
如果想法存活下来,生成5个在投入资源前必须回答的问题:
基于这个已评估的想法:{ROUND2OUTPUT}
精确生成5个问题,其中:
- - 每个问题可以用数据(而非观点)回答
- 每个答案会实质性改变构建计划
- 每个问题可以在<30分钟内研究清楚
- 格式:问题 | 如何回答 | 如果是与否分别会改变什么
Ryan回答这5个问题 → 答案输入阶段1的分解。
风险评估的代币预算
| 轮次 | 模型 | 估计代币数 | 成本 |
|---|
| 第1轮:乐观 | flash | ~1500 | $0.003 |
| 第2轮:修正 |
sonnet | ~2000 | $0.06 |
| 第3轮:问题 | flash | ~800 | $0.002 |
|
总计 | |
~4300 |
$0.065 |
如果我们无法用0.07美元的推理解决它,那么这个想法还不够清晰。 搁置它,等有更多信号时再重新审视。
何时不进行风险评估
- - 任务已定义(错误修复、功能请求、维护)
- Ryan明确说明了要构建什么
- 这是一个有规格说明的客户项目
- 这是基础设施/工具类工作
阶段1:思考(仅限Opus——约500-2000代币输出)
这是唯一使用Opus的阶段。之后的一切都被授权出去。
1a. 机会框架(如果跳过了风险评估)
在≤150词内回答:
是什么:[一句话——这是什么]
谁:[目标客户——要具体,不是中小企业]
为什么是现在:[时机信号——监管、技术转变、市场缺口]
总可寻址市场:[总可寻址市场——即使是粗略的粗略估算]
竞争对手:[前3名,他们的弱点]
我们的优势:[我们拥有而他们没有的——现有基础设施、分销渠道、数据]
切入点:[我们进入的具体楔形——不是整个市场]
1b. 分解为原子
将工作分解为最小可独立测试单元。
规则:
- - 每个原子有一个清晰的输出(一个文件、一个URL、一个数据点、一个是/否答案)
- 每个原子可以由机器验证(不是看起来不错——是一个返回通过/失败的命令)
- 每个原子对子代理来说耗时<15分钟
- 如果一个原子耗时>15分钟,它就不是原子的——再次拆分
- 依赖关系是明确的(原子B需要原子A的输出文件)
输出格式:
markdown
| # | 原子 | 输出 | 评估 | 模型 | 依赖 | 估计 |
|---|
| 1 | 研究竞争对手定价 | research/pricing.md | ≥3个竞争对手列出 | flash | — | 3分钟 |
| 2 |
搭建Next.js应用脚手架 | src/app/page.tsx | npm run build退出码0 | sonnet | — | 5分钟 |
1c. 模型分配
是代码生成吗? → sonnet
是批量/模板/分类吗? → flash
是20+项的批次吗? → gptoss
需要>100K上下文吗? → gemini-pro
是面向客户的文案吗? → opus(例外)
是是/否检查吗? → flash
默认:flash。 只有在有理由时才升级。
1d. 评估规范
每个原子都有一个机器可验证的评估:
| 评估类型 | 示例 | 检查方式 |
|---|
| 文件存在 | research/pricing.md | test -f research/pricing.md |
| 构建通过 |
Next.js构建 | npm run build; echo $? → 0 |
|
HTTP 200 | 网站已上线 | curl -so /dev/null -w %{http_code} [url] → 200 |
|
内容检查 | ≥3个竞争对手 | grep -c ^## research/pricing.md ≥ 3 |
|
截图 | UI正确渲染 | 浏览器截图 + 图像模型评估 |
阶段2:规划(仍用Opus,仅排序——快速)
- 1. 按依赖关系进行拓扑排序
- 分组为波次(并行原子)
- 估计总时间 = 通过依赖关系图的最长路径
- 估计总成本 = 总和(模型成本 × 估计时间)
将完整计划写入workspace/DELEGATION_PLAN.md。
阶段3:执行(Opus放手——不再接触工作)
将DELEGATION_PLAN.md交给编排器 → 生成器管道。
Opus在执行期间的唯一角色:监控完成事件,在失败时重新路由。
Opus不做: 编写代码、生成内容、运行构建、进行研究查询。
阶段4:评估(自动化)
每个原子之后:运行评估命令 → 通过/失败 → 必要时进行模型升级重试。
失败 → 重试相同模型 → 升级模型(flash→sonnet→opus) → 标记为失败
阶段5:学习(反馈自动改进)
将每个原子的耗时 + 通过/失败追加到.learnings/LEARNINGS.md。
反模式
- - ❌ Opus编写代码
- ❌ 主观评估(看起来不错)
- ❌ 原子大于15分钟
- ❌ 对新机会跳过框架
- ❌ 在执行期间重新思考(阶段2后计划被锁定)
- ❌ 花费>$0.07推理一个未经验证的想法
- ❌ 对<20个项目使用gptoss