Subagent Sheepdog

当工作满足以下条件时，请使用此技能：

- 委托给子代理或子会话
作为后台进程启动
通过浏览器自动化驱动
运行时间较长，需要进度报告
容易发生幽灵委托（声称已启动，但实际未开始工作）

对于启动验证会增加干扰的微小直接任务，不要使用此技能。

目的

此技能可防止代理系统中的一种常见故障模式：

代理启动某个任务，获取会话/进程/标签页句柄，然后错误地报告工作正在运行，尽管启动已经失败或从未真正开始。

它强制执行清晰的状态转换、真实的通信以及看门狗式的恢复行为。

核心规则

在验证启动成功之前，不要声称工作正在运行。

会话ID、进程ID、浏览器标签页或工具句柄本身不能证明工作已实际开始。

将启动后到验证前的阶段视为：

- 启动未验证

只有在验证之后，任务才能变为：

- 运行中

如果在实际执行开始前启动失败，则归类为：

- 启动失败

如果工作开始后失败，则归类为：

- 工作开始后失败

任务状态

一致使用以下状态：

- 启动未验证
运行中
延迟
启动失败
工作开始后失败
已完成

状态含义

启动未验证

已尝试启动，但启动健康状态尚未确认。

运行中

启动已验证，有意义的执行正在进行。

延迟

工作仍在运行，但比预期晚。

启动失败

在实际工作开始前，启动路径失败。

工作开始后失败

实际工作已开始，但随后失败。

已完成

任务成功完成，产生实际输出或结果。

必需的启动序列

每当应用此技能时，请遵循以下序列：

1. 简要宣布启动
尝试启动
进入启动未验证
验证启动健康状态
如果验证通过，标记为运行中
如果未验证通过，标记为启动失败
仅当修复显而易见且机械性时重试
在声称成功前重新验证

按工作类型的验证规则

A. 子代理/子会话启动

除非至少验证以下内容，否则不要声称成功：

- 生成调用成功
子会话实际存在
子会话处于活动状态或以其他方式被接受
运行时没有立即拒绝启动

此处启动失败的示例：

- 无效的生成参数
不支持的运行时组合
缺少线程绑定
被拒绝的会话模式
缺少必需的代理/运行时字段

B. 后台执行/进程启动

除非至少验证以下内容，否则不要声称成功：

- 进程存在
进程没有立即退出
工作目录有效
可执行文件存在
初始结果/日志中没有立即致命的启动错误

此处启动失败的示例：

- 命令未找到
没有这样的文件或目录
启动时权限被拒绝
无效的工作目录
立即非零退出
运行时主机/沙箱不匹配被拒绝

C. 浏览器驱动的工作

除非至少验证路径的相关部分，否则不要声称浏览器工作正在进行：

- 浏览器/会话存在
目标页面实际加载
预期的页面或UI元素存在
没有登录墙、插页或错误页面阻止进度

此处启动失败的示例：

- 浏览器已打开但目标页面加载失败
在任务开始前被重定向到登录页面
错误页面阻止了交互
所需的UI元素从未出现

如果页面已加载且有意义的交互在失败前已开始，则使用工作开始后失败。

心跳行为

心跳是看门狗，不是主要的进度循环。

使用心跳来：

- 发现超时任务
检测停滞的工作
检测幽灵委托
捕获未正确报告的启动失败

不要使用心跳来：

- 积极轮询每个活动任务
替代直接的里程碑更新
替代正确的启动验证

幽灵委托

幽灵委托是指工作被描述为已启动，但：

- 没有实际的工作者存在
启动立即失败
浏览器设置从未到达可用页面
代理暗示了进度但没有验证执行

心跳应清晰地将此暴露出来，而不是返回正常的一切正常。

通信规则

宁要简洁的真实，不要令人安心的虚构。

良好的启动阶段用语

- 正在启动。正在验证启动。
已尝试启动；正在检查工作者是否实际启动。
在将其称为运行中之前，正在验证启动。

良好的失败用语

- 启动失败。没有工作开始。原因：{原因}。
启动在执行开始前被拒绝。没有工作开始。
浏览器路径在有意义的交互开始前失败。没有工作开始。

良好的运行中用语

- 已验证：工作现在实际正在运行。
启动已确认。第一个里程碑预计时间~{时间}。

良好的延迟用语

- 工作仍在运行，但比预期慢。
任务处于活动状态，但落后于原始预计时间。

良好的后期失败用语

- 工作确实开始了，但后来失败了。原因：{原因}。

不良用语

- 在验证前说已成功启动
只有句柄存在时说正在处理
在启动健康状态确认前说正在分析中
在验证发生前暗示已验证执行的任何预计时间

重试策略

仅当修复显而易见且机械性时重试。

示例：

- 纠正已知的启动参数
切换到适当的线程绑定模式
修复错误的工作目录
切换到可用的可执行文件/运行时

如果重试：

1. 报告原始失败
说明正在重试
返回启动未验证
在声称成功前重新验证

不要无限循环。

最佳下一步规则

当受阻时，推荐一个最佳下一步，而不是抛出一大堆选项，除非用户明确要求提供选项。

良好：

- 最佳下一步：切换到一次性运行模式，因为此处无法使用持久线程绑定。

不太良好：

- 给出4-6个松散排序的可能性而没有指导

通用示例

不良

后台工作者已启动并正在运行。

（但只有一个会话ID存在；未进行任何验证。）

良好

已尝试启动；正在验证启动。

然后要么：

- 已验证：工作者现在实际正在运行。

要么：

- 启动失败。没有工作开始。原因：会话模式缺少线程绑定。

浏览器示例

不良

已打开浏览器，我现在正在处理网站。

（但浏览器只打开了一个登录墙。）

良好

浏览器已启动，但目标工作流未开始。页面在任务开始前重定向到登录页面。没有工作开始。

完成标准

只有当有实际结果的证据时，才能将任务描述为已完成，例如：

- 输出工件
已验证的状态变更
与实际执行工作相关的最终摘要

总结

此技能教授一个简单的纪律：

- 谨慎启动
验证启动
真实报告
使用心跳作为备份
区分启动失败与工作失败

结果是更好的信任、更清晰的状态报告以及更少的幽灵任务。

subagent-sheepdog子代理牧羊犬