返回顶部
a

ab-test-runnerA/B测试运行器

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
119
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ab-test-runner

AB测试运行器

运行结构化A/B实验:假设 → 设计 → 执行 → 归档 → 更新发现。



工作流程

假设 → 操作化定义 → 变体设计 → 执行 → 分析 → 归档 → 模板更新



第一步:假设

用户输入:一个待测试的问题或主张

你的任务:将其规范化为标准格式:

markdown
领域:<提示词|行为|工程|内容>
变量:<你正在改变的内容>
假设:<具体可检验的因果/差异陈述>

示例

  • - 自然语言 vs 申论化语言哪个效果好 → 领域:提示词,变量:语言风格,假设:自然语言比申论化语言产出质量更高
  • 语速+15% vs 语速+5% → 领域:内容,变量:TTS语速,假设:语速+15%比+5%完播率更高

如果用户未指定:询问3个问题:

  1. 1. 你要改变哪个变量?(A是什么 vs B是什么)
  2. 你怎么判断哪个更好?(Cooper主观评判 / 客观指标 / 两者都有)
  3. 每组需要多少样本?



第二步:操作化定义

在运行前创建实验清单:

json
{
实验ID: hyp-XXX,
执行时间: ,
领域: ...,
变量: ...,
假设: ...,
每组样本数: <10-30>,
评分标准: {
<维度A>: 0-3 — <标准>,
<维度B>: 0-3 — <标准>,
<维度C>: 0-3 — <标准>,
<篇幅合规>: 0-1 — <标准>
},
成功标准: <假设成立的标准>
}

规则

  • - 每组样本≥10(低于10明确标注方向性信号,非统计显著)
  • 评分标准多维(3个维度+1个合规项)比单一分数更抗漂移
  • 评分方法必须说明:自评 / 交叉评 / 外部独立评估



第三步:变体设计

精确定义每个变体接收的内容:

变体A — 对照组

  • - 提示词:<完整对照提示词>
  • 样本任务:<3个代表性任务>

变体B — 实验组

  • - 提示词:<只改一个变量的实验提示词>
  • 样本任务:<与A完全相同的3个任务>

铁律:每次只改一个变量。其他所有元素(任务、温度、最大令牌数)完全一致。

质量方差:每个变体内的任务要有难度差异,确保输出有高/中/低分布。



第四步:执行

并行子代理模板

生成N个子代理(每组一个,或每个任务一个),任务包含:

  1. 1. 实验ID+变体标签
  2. 完整评分标准(让代理知道评分标准)
  3. 任务描述
  4. 执行指令:生成输出→按评分标准评分→记录自评分+推理过程
  5. 输出格式:{ID,变体,输出,自评分,推理过程}

批量限制:每次实验最多并发3个子代理,避免429限流

交叉评分(如果用自评)

当所有自评完成:

再生成1个子代理做盲评:

  • - 输入:所有输出的匿名版本(A/B标签打乱)
  • 任务:对每个输出按评分标准评分,不知道哪个对应哪个变体
  • 输出:{ID,交叉评分,推理过程}

数据收集

汇总所有结果到memory/experiments/auto-ab-results.json:

json
{
实验ID: hyp-XXX,
执行时间: ...,
变体A: { 标签: ..., 样本数: N, 平均分: X.X },
变体B: { 标签: ..., 样本数: N, 平均分: X.X },
胜者: A|B|无,
结论: ...
}



第五步:分析

根据结果判断:

条件结论
A显著优于B(效应量大)已确认
B显著优于A
已反驳(假设方向错误) |
| 部分维度成立 | 部分确认 |
| 无差异,样本够 | 无结论 |
| 样本<10 | 样本不足 |

计算均值差异+效应量方向,给出具体结论。



第六步:归档

写入假设注册表

memory/experiments/auto-ab-hypotheses.json:追加/更新对应假设条目

写入详细分析

memory/experiments/hyp-XXX.md:包含完整评分标准、样本统计、结论、后续实验建议

更新模板

memory/experiments/AB-test-design-template.md:

  • - 新发现→追加到第10节核心发现
  • 新坑点→追加到第11节已知坑点



第七步:回报给Cooper

简洁回报格式:

实验hyp-XXX | <领域>
假设:<一句话假设>
结果:A胜/B胜/无差异
核心发现:<一句话>
结论:
下一步:<如果要继续,下一步是什么>



关键配置

  • - 数据文件:memory/experiments/auto-ab-results.json
  • 假设注册表:memory/experiments/auto-ab-hypotheses.json
  • 模板:memory/experiments/AB-test-design-template.md
  • 坑点:memory/experiments/AB-test-design-template.md第11节

已知坑点(执行前必读)

  1. 1. API令牌=0:执行前健康检查,失败立即重试
  2. 自评膨胀:不依赖自评分作为唯一指标,用交叉评分校正
  3. 迭代拐点:超过3轮迭代质量下降,报告时标注
  4. 输出非确定性:每组至少10样本抵消随机性

基于第2批(6实验,190样本)+假设系列(5假设)实战经验

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ab-test-runner-1776028134 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ab-test-runner-1776028134 技能

通过命令行安装

skillhub install ab-test-runner-1776028134

下载

⬇ 下载 ab-test-runner v1.0.0(免费)

文件大小: 3.44 KB | 发布时间: 2026-4-13 09:07

v1.0.0 最新 2026-4-13 09:07
Initial release of ab-test-runner: a structured workflow for A/B testing LLM prompts, agent behaviors, and content.

- Guides users through hypothesis setup, variable selection, and metric definition.
- Ensures standardized experiment design, including sample size rules and multi-dimensional rubrics.
- Automates experiment execution via subagents, supports self/cross/external scoring.
- Aggregates results, calculates effects, archives findings, and recommends next steps.
- Includes detailed templates and pitfall documentation to improve testing consistency and result reliability.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部