返回顶部
s

skill-optimizer技能优化器

Auto-improve any OpenClaw skill using Karpathy's autoresearch loop. Runs skill repeatedly against test inputs, scores against a yes/no checklist, makes one targeted change, keeps if better, reverts if worse. Also audits skill structure against Anthropic's best practices (progressive disclosure, gotchas section, trigger-phrase description). Use when asked to "optimize this skill", "improve my skill", "run autoresearch on", "audit this skill", or before running any skill at scale (e.g., cold outre

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.0.0
安全检测
已通过
162
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

skill-optimizer

技能优化器(自动研究循环 + Anthropic 结构审计)

两阶段改进系统:(1) 对照 Anthropic 最佳实践进行结构审计,(2) 迭代输出质量循环。



阶段 1:结构审计(始终优先运行)

在优化输出质量之前,审计技能架构。对照以下 5 项结构检查进行评分:

结构检查清单:

  1. 1. 陷阱部分 — SKILL.md 是否有 ## Gotchas 部分,且包含至少一个真实失败案例?(根据 Anthropic,这是最高信号内容)
  2. 触发短语描述 — YAML description 字段是否说明了何时使用该技能,而不仅仅是做什么?必须包含当...时使用或等效触发条件。
  3. 渐进式披露 — 技能是否使用文件系统(references/、scripts/、assets/、config.json)而不是将所有内容内联倾倒在 SKILL.md 中?
  4. 单一焦点 — 技能是否清晰属于一种类型(库参考、验证、自动化、脚手架、运行手册等),而不跨越多种类型?
  5. 无过度约束 — 技能是否给予 Claude 信息+灵活性,而不是过度指定如何执行?

每项评分:✅ 通过 | ❌ 失败 | ⚠️ 部分通过

对于每项失败:提出具体修复方案,获批后应用。

可立即应用的快速修复:

  • - 如果没有陷阱部分 → 添加 ## Gotchas\n- [占位符:发现真实失败案例后在此添加]
  • 如果描述是摘要 → 重写为触发条件
  • 如果所有内容都是内联的 → 提出 references/ 文件夹结构



阶段 2:输出质量循环(自动研究)

结构审计后,对技能的实际输出运行迭代改进循环。

设置

  1. 1. 哪个技能? — 用户指定,或从上下文推断。
  2. 测试输入 — 获取 2-3 个代表性输入。如果用户未提供:
- 检查技能自身文档中的示例用法 - 使用记忆/会话历史中的近期真实调用 - 对于提取技能:使用已知良好的 URL/文件。对于生成技能:使用技能自身的示例提示。
  1. 3. 评分检查清单 — 构建 3-6 个评分项目。从以下示例开始,然后自定义:
- 使该技能输出糟糕的首要因素是什么?(这是检查清单第 1 项) - 什么会让用户说这正是我想要的?(这是正面表述) - 从下面的通用结构质量清单中添加 1-2 项

评分检查清单示例

参见 references/checklist-examples.md,按技能类型(冷外联、内容、研究、提取、流程/元技能)获取起始检查清单。

评分模式

二元模式(简单技能默认): 每项检查清单项目是/否。通过率 = 总是 /(项目数 × 运行次数)。

维度模式(复杂技能或二元模式停滞时使用): 每个维度评分 0-10。识别最弱维度(各运行中平均值最低)。针对该维度进行修订 — 不要重写所有内容。

在以下情况下使用维度模式:

  • - 二元评分达到 100% 但输出仍感觉平庸
  • 技能具有二元模式无法捕捉的定性维度(语气、深度、相关性)
  • 你想从良好改进到优秀,而不是从糟糕改进到可用

循环

第 N 轮:

  1. 1. 对每个测试输入运行技能
  2. 对每个输出评分(二元:每个是得 1 分 | 维度:每个维度 0-10 分)
  3. 计算分数:

- 二元:通过率 = (总是) / (项目数 × 运行次数)
- 维度:各运行中每个维度的平均分
  1. 4. 识别最弱项目/维度(失败最多或平均分最低)
  2. 对 SKILL.md 进行一项针对性更改,仅解决该弱点
  3. 重新运行并重新评分
  4. 如果新分数 > 旧分数:保留。否则:还原。
  5. 记录:分数前后对比、所做更改、针对的维度、保留/还原

停止条件:二元 ≥ 95%(连续 3 轮)或 维度最弱项 ≥ 8/10(连续 3 轮)或达到 20 轮。

输出文件

  • - skills/{skill-name}/SKILL-optimized.md — 改进版本(原始文件不变)
  • skills/{skill-name}/optimization-changelog.md — 完整轮次日志

变更日志格式

markdown

结构审计

  • - 陷阱部分:❌ → 添加了占位符
  • 描述:❌ → 重写为触发条件
  • 渐进式披露:⚠️ → 已记录,推迟处理

第 1 轮(二元模式)

  • - 分数:4/10(40%)
  • 最弱项目:是否提及企业名称?
  • 更改:添加规则始终以[企业名称]开头
  • 新分数:7/10(70%)
  • 决定:保留

第 2 轮(维度模式)

  • - 分数:准确性 8/10 | 语气 5/10 | 简洁性 9/10 | 相关性 7/10
  • 最弱维度:语气(5/10)
  • 更改:添加匹配潜在客户的行业语言,而非通用销售话术
  • 新分数:准确性 8/10 | 语气 7/10 | 简洁性 9/10 | 相关性 7/10
  • 决定:保留(语气 +2)

优化元技能(流程技能)

有些技能不产生文本 — 它们驱动一个流程(例如,本技能本身、规划工作流、研究管线)。对于这些技能:

评分内容: 评分遵循流程的体验,而非文本产物。

  • - 流程是否产生了清晰的结果?
  • 是否有指令模糊导致困惑的时刻?
  • 是否有任何步骤感觉不必要或冗余?
  • 没有先前上下文的人能否遵循此流程?

测试方法: 对 2-3 个真实任务(非假设性)运行技能。每次实际使用后评分。测试输入就是你要应用该技能的任务。

流程技能的维度评分:

  • - 清晰度 — 我能否无需重读就能遵循每个步骤?
  • 完整性 — 流程是否覆盖完整工作流?
  • 可操作性 — 我是否确切知道每个步骤要做什么,还是需要推断?
  • 效率 — 是否有浪费/冗余的步骤?
  • 自适用性 — 此流程能否自我改进?(元测试)

检查清单最佳点

  • - 3-6 个问题 = 最优
  • 太少:不够细化,无法指导更改
  • 太多:技能开始玩弄检查清单(就像学生死记硬背答案而不理解)

何时使用

  • - 大规模运行任何技能之前(冷外联、内容生成、爬取)
  • 新模型升级后 — 重新验证现有技能
  • 当技能输出质量不一致时
  • 对高使用率技能进行月度维护
  • 创建新技能后立即使用(结构审计仅需 5 分钟)

何时运行哪个阶段

  • - 任何新技能 → 结构审计(5 分钟,及早发现问题)
  • 大规模使用前 → 输出循环(批量运行前验证质量)
  • 模型升级后 → 输出循环(重新验证现有技能)
  • 输出不一致 → 输出循环(找出失败项目/维度)
  • 高收入技能 → 两个阶段(冷外联、内容生成 — 质量差异 = 收入影响)

陷阱

  • - 输出循环要求技能产生可评分的文本输出 — 产生副作用的脚本/工具需要不同的验证方法(改用产品验证技能类型)
  • 不要对调用昂贵 API 且无速率限制意识的技能运行输出循环 — 每轮循环会多次运行技能
  • 阶段 1(结构审计)应始终在阶段 2 之前运行 — 先修复结构使输出循环更有效
  • 3-6 个检查清单问题是最佳点 — 超过 6 个,技能开始玩弄个别检查而非改进整体质量

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 autoresearch-skill-optimizer-1776270902 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 autoresearch-skill-optimizer-1776270902 技能

通过命令行安装

skillhub install autoresearch-skill-optimizer-1776270902

下载

⬇ 下载 skill-optimizer v2.0.0(免费)

文件大小: 6.26 KB | 发布时间: 2026-4-17 14:09

v2.0.0 最新 2026-4-17 14:09
v2: Dimensional scoring (0-10), meta-skill optimization, progressive disclosure, autonomous setup

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部