返回顶部
f

flow-test流程测试

Designs agent-evaluated flow tests for browser tasks, LLM outputs, and tool workflows. Invoke when exact asserts are brittle and semantic success matters more than literal equality.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.0.1
安全检测
已通过
119
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

flow-test

流程测试

使用此技能为无法仅通过传统单元测试断言可靠验证的任务设计测试。

此技能适用于流程测试:智能体执行一个实际任务,记录过程中的关键证据,然后使用明确的语义评估标准判断成功与否。

在以下情况下调用此技能:

  • - 任务依赖于实时或变化的网络内容
  • 输出可能不同但仍然是正确的
  • 工作流跨越多个模型或工具步骤
  • 中间证据比一个精确的最终字符串更重要
  • 需要验证用户意图是否得到满足,而非精确措辞

在以下情况下不使用此技能:

  • - 结果是确定性的且易于直接断言
  • 模式检查、精确匹配、快照或纯函数测试就足够了
  • 需求可以通过常规单元测试或集成测试完全覆盖

目标

将模糊的需求转化为结合以下内容的测试设计:

  • - 对稳定不变量的确定性检查
  • 对动态执行的证据收集
  • 对可变结果的语义评估
  • 对通过、失败或需审查的有限判定

设计原则

1. 保留仍然有效的断言

不要盲目替换传统测试。对稳定事实保留精确检查,例如:

  • - 工具调用成功
  • 必填字段
  • 最小数量
  • 状态码
  • 域名限制
  • 机器可检查的日期或时效性约束

2. 判断任务完成情况,而非精确措辞

优先考虑以下问题:

  • - 智能体是否到达了正确的来源
  • 是否收集了相关信息
  • 最终答案是否满足用户请求

除非措辞本身就是需求,否则避免要求一个精确的字符串。

3. 要求可检查的证据

要求执行流程打印或捕获简洁的证据,例如:

  • - 访问的URL
  • 页面标题
  • 可见标题
  • 提取的实体
  • 时间戳或日期线索
  • 关键工具输出
  • 最终答案

评估者应能检查得出判定的原因。

4. 使用明确的语义评估标准

永远不要依赖模糊的指令,例如判断它看起来是否好。

始终定义:

  • - 需要什么证据
  • 什么算通过
  • 什么明显失败
  • 何时不确定性应变为需审查

5. 优先考虑有限置信度

如果证据不完整、矛盾或太弱,不要强制通过。

返回需审查。

工作流程

调用时,按以下顺序设计测试。

1. 识别精确断言为何脆弱

对任务进行分类:

  • - 动态网页浏览
  • 搜索或检索
  • LLM生成
  • 多工具编排
  • 端到端用户流程

然后解释为什么字面相等或固定快照不够充分。

2. 将确定性检查与语义检查分开

编写两组:

确定性检查

对稳定部分使用精确验证,例如:

  • - 工具成功返回
  • 必填字段存在
  • 存在最小结果数量
  • 来源域名符合预期
  • 响应包含有效日期范围

语义检查

对可变部分使用智能体评估,例如:

  • - 与请求主题的相关性
  • 检索内容的时效性
  • 答案是否反映收集的证据
  • 工作流是否实际满足预期任务

3. 定义证据模式

精确指定运行应记录或输出的内容。

推荐的证据字段:

  • - 任务
  • 来源URL
  • 来源标题
  • 提取的项目
  • 时效性信号
  • 中间结果
  • 最终答案
  • 评估者备注

保持证据最小化但足以用于审查。

4. 定义判定标准

使用此基准:

通过

  • - 智能体到达了相关来源或完成了预期流程
  • 收集的证据支持结论
  • 最终输出与任务相关且足够及时
  • 证据与答案之间没有重大矛盾

失败

  • - 智能体未能到达相关来源或完成流程
  • 结果明显不相关、过时或捏造
  • 输出与证据矛盾
  • 工作流遗漏了所需的用户目标

需审查

  • - 证据不完整或模糊
  • 无法确定时效性
  • 存在多种合理的解释

5. 生成结构化的测试规范

按以下格式返回设计:

markdown

测试意图

精确断言失败的原因

确定性检查

需收集的证据

语义评估标准

执行说明

最终判定格式

输出模板

markdown

测试意图


  • - 验证:

精确断言失败的原因

  • - 动态因素:
  • 字面相等为何脆弱:

确定性检查

  • - 检查1:
  • 检查2:

需收集的证据

  • - 证据1:
  • 证据2:

语义评估标准

  • - 通过条件:
  • 失败条件:
  • 需审查条件:

执行说明

  • - 约束:
  • 允许的差异:
  • 安全问题:

最终判定格式

  • - 判定:通过 | 失败 | 需审查
  • 原因:
  • 证据:

示例

任务:验证访问新闻网站是否返回今天的新闻而非过时内容。

好的测试设计:

  • - 确定性检查确认页面加载且至少收集了一个文章项目
  • 证据包括访问的网站、页面标题、可见标题、日期线索和最终摘要
  • 语义评估标准在结果明确反映来自访问来源的当日或当前报道时通过
  • 语义评估标准在标题过时、不相关或编造时失败
  • 语义评估标准在无法从证据确定时效性时返回需审查

差的测试设计:

  • - assert returned_text == 今天的新闻是...

指导

使用此技能时:

  • - 对稳定不变量保留传统断言
  • 仅在精确匹配变得脆弱时使用语义评估
  • 优先使用狭窄的评估标准而非主观判断
  • 在通过测试前要求可见证据
  • 明确陈述不确定性而非掩盖它

交付物

当被要求设计流程测试时,提供:

  • - 结构化的测试规范
  • 确定性检查
  • 证据模式
  • 语义评估标准
  • 最终判定格式

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 flow-test-1776030249 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 flow-test-1776030249 技能

通过命令行安装

skillhub install flow-test-1776030249

下载

⬇ 下载 flow-test v0.0.1(免费)

文件大小: 3.13 KB | 发布时间: 2026-4-13 10:19

v0.0.1 最新 2026-4-13 10:19
- Initial release of the "flow-test" skill for agent-evaluated testing of browser tasks, LLM outputs, and tool workflows.
- Provides a structured approach for designing tests where exact asserts are brittle and semantic success is more important than literal equality.
- Introduces clear guidelines for when to use flow tests versus traditional assertions.
- Defines an evidence-based evaluation process, including deterministic checks, semantic rubrics, and a bounded verdict system (`pass`, `fail`, `needs_review`).
- Includes output templates and deliverable requirements for consistent test design.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部