返回顶部
a

autoresearch-loop自动研究循环

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.4.0
安全检测
已通过
156
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

autoresearch-loop

自动研究循环技能

Karpathy的自动研究方法论,应用于改进Claude技能、n8n工作流、系统提示和业务流程。

核心思想:定义什么是更好。锁定除被改进工件之外的所有内容。提出变更 → 测试 → 衡量 → 保留或丢弃 → 重复,直到满足停止条件。

何时不使用此循环:

  • - 你无法定义单一可衡量的指标(例如改进我的写作风格——过于主观)
  • 工件太大,无法在固定预算内廉价评估
  • 没有固定的评估集(或你无法创建一个)——没有稳定的衡量标准,你只是在猜测
  • 你需要同时改进两个相互依赖的工件——应顺序进行
  • 工件是一次性文档(单个客户提案、一次性报告)——循环适用于将被重复使用和随时间改进的工件。一次性交付物没有未来的评估价值;直接写好即可

如果你无法回答什么数字能告诉我这个实验是否有效?,请停下来,先定义这个数字。

该方法论与格式无关:该循环适用于任何工件类型——代码、提示、文档、设计系统、API配置、流程规范——只要你能定义工件、指标和可重复的评估。对于以下示例未涵盖的新型工件类型:逐步完成设置阶段(工件 → 指标 → 评估 → 预算)并创造性地定义每个要素。Figma组件库的指标可以是检查清单通过率(可访问性、一致性、覆盖率);其评估可以是针对该检查清单评分的测试场景(渲染数据表、创建带有验证状态的表单)。先从一个小的评估(5-10个测试用例)开始,验证指标能产生有意义的信号,然后再投入完整的活动。



设置阶段

在循环开始之前,与用户一起确定以下五项内容:

1. 工件(你正在改进的内容)

被迭代修改的单个文件、文档、工作流或流程。将其视为Karpathy仓库中的train.py——代理编辑的唯一对象。

示例:

  • - 一个SKILL.md文件
  • 一个n8n工作流JSON
  • 一个系统提示
  • 一个SOP文档
  • 一个业务流程描述

固定文件:确定哪些内容不得更改——评估标准、输入测试用例、外部集成。这些是你的prepare.py。

从相关工件热启动:如果类似的工件已经存在(例如,当你需要一个马德里房产代理提示时,已有巴塞罗那房产代理提示),则从它开始,而不是从头开始——它继承了已解决的问题,并提供了比空文件更好的基线。但:你仍然必须使用新的、上下文合适的评估集,在新工件上运行适当的基线(迭代0)。不要假设旧分数会转移。早期实验可能会显示,在真正的马德里特定改进开始之前,仅通过移除巴塞罗那特定内容就能快速获得收益。继承的债务:如果你早期实验中超过约50%是在移除或重做继承的内容,而不是增加新能力,那么热启动造成的债务多于价值——考虑从尝试中吸取的教训(而不是内容)重新开始。

生产环境中的活跃工件:如果工件当前正在服务真实用户(活跃的代理、已部署的工作流),切勿直接在活跃版本上运行循环。而是:(1) 将其复制到工作分支/文件中,(2) 冻结活跃版本——在循环产生胜出版本之前不做任何更改,(3) 在副本上运行循环,(4) 准备好后,有意控制地部署胜出版本。指标无法实时捕捉生产环境中的回归;通过保持循环在沙盒中运行来保护活跃用户。紧急例外:如果在活跃循环期间生产环境发生严重故障,立即修复活跃版本——用户安全优先于循环纪律。然后进行协调:将相同的修复应用到你的沙盒副本,重新评估以获得新的当前分数,将热修复作为带外实验记录在results.tsv中,并从更新后的状态继续循环。

2. 指标(更好的含义)

一个清晰、可衡量的信号,用于决定保留还是丢弃。指标上升或下降必须明确意味着更好。

按工件类型举例:

工件良好指标
Claude技能测试提示的通过率(0-100%)
系统提示
评估集的准确率分数 |
| n8n工作流 | 成功执行率、延迟、步骤数 |
| 业务流程 | 周期时间、错误率、完成步骤数 |
| SOW模板 | 可读性分数、必填字段覆盖率 |

如果你无法定义指标,就无法运行循环。 与用户合作,直到有一个指标。

构建复合指标——如果你关心两个维度(例如,准确性和简洁性):

  1. 1. 在同一评估集上分别对每个维度评分(例如,准确性:每个提示0-1分,简洁性:每个提示0-1分)
  2. 在循环开始前根据相对重要性定义权重:分数 = 0.7 准确性 + 0.3 简洁性
  3. 复合分数就是进入results.tsv的内容——一个数字,决定性的
  4. 切勿根据结果在循环中调整权重——那是在更改指标,会使比较无效
  5. 在results.tsv的标题或单独的注释中记录权重,以便未来的会话知道他们在与什么进行比较

多模型工件——如果工件必须在不同模型上工作(例如,Opus和Sonnet),仍然适用一个指标。选项:(a) 底线策略——使用较弱模型的分数作为指标,确保工件在任何地方都能工作;(b) 使用量加权平均——按实际使用分布加权(例如,如果大多数用户使用Sonnet,则为0.3 opus分数 + 0.7 sonnet分数)。在循环开始前锁定模型权重,规则与复合指标相同。不要为不同模型在同一工件上运行单独的循环——那会产生冲突的优化压力。

3. 预算(实验范围)

一个实验由什么组成。保持简短——Karpathy每次训练运行使用5分钟。将其转化到你的领域:
  • - 技能:通过Claude运行N个测试提示(N = 5-20;在迭代时使用快速子集,在提交保留边界结果之前使用完整集)
  • 工作流:在M个样本输入上执行
  • 流程:对照检查清单进行模拟运行或同行评审

一个好的评估集应具备什么:

  • - 多样化——涵盖工件所有主要用例,而不仅仅是理想路径
  • 对抗性——包括应优雅失败的输入、边缘情况、模糊输入
  • 稳定——具有清晰、明确通过/失败标准的提示;避免视情况而定的提示

如果提示的标准在循环中变得模糊:你不能更改提示(评估集不可变),但你可以澄清评分标准——提示文本是固定的,但如果标准确实规定不足(例如,适当回应),现在记录一个具体的解释,并在会话的剩余部分一致地应用它。标记此提示以便在下一个会话的评估集中替换。切勿在看到该特定运行的输出后定义通过。

  • - 代表性——如果工件处理5种不同的场景,为每种场景准备提示
  • 足够大——少于10个提示时,一个翻转=10-17个百分点。那是噪音,不是信号。要求至少10个提示;如果更少,则在保留实验之前需要2个以上的提示改进(而不是1个)。

一个糟糕的评估集(10个几乎相同的提示)会给你一个误导性的高分。如果你从60%改进到80%,但所有8个通过的提示都是同一个场景,你对其他场景一无所知。

评估难度不平衡:如果某些提示非常简单(基线通过),而其他提示非常困难以至于任何版本都从未通过,那么你的有效区分范围比评估看起来更窄——锁定的通过和锁定的失败不能区分工件版本。对于当前轮次:按原样继续(评估集不可变),但对有效提示计数应用统计脆弱性规则,而不是总数。对于下一轮次:用更难的版本替换非常简单的提示,要么使不可能的提示变得可实现(放宽标准),要么如果它们测试的内容超出工件范围则将其移除。

评估质量和设计者偏差——如果每个新工件在2-3个会话内都达到100%,你的评估可能太容易了。当同一个人设计评估并运行循环时,风险会放大——你可能会无意识地编写你知道工件能处理的提示。具体防护措施:(a) 在查看当前工件版本之前编写评估提示——测试它应该做什么,而不是它什么;(b) 针对评估运行循环前的基线工件——如果它得分70%+,则评估的区分度不够(对于一个相当好的工件,目标基线为30-60%);(c) 让第二个人审查或贡献提示,并尝试用不在你评估中的新提示来打破已收敛的工件;(d) 计算理想路径与对抗性提示的比例——如果>60%是理想路径,则重新平衡;(e) 包含红队提示和实际使用中的真实失败案例——它们本质上是无偏的。

评估-受众不匹配:如果评估由专家编写,但真实用户是非专家(反之亦然),那么高分毫无意义——你为错误的输入分布进行了优化。使用从生产环境或用户访谈中收集的实际用户查询重新设计评估。评估必须测试真实用户实际如何沟通,而不是专家认为他们应该如何沟通。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 as-autoresearch-loop-1775905869 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 as-autoresearch-loop-1775905869 技能

通过命令行安装

skillhub install as-autoresearch-loop-1775905869

下载

⬇ 下载 autoresearch-loop v1.4.0(免费)

文件大小: 850.66 KB | 发布时间: 2026-4-12 09:03

v1.4.0 最新 2026-4-12 09:03
Hardened all remaining autonomy language: added periodic user check-ins, removed 'autonomously' and 'indefinitely', softened CI/CD section

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部