返回顶部
a

agentbench智能体基准测试

Benchmark your OpenClaw agent across 40 real-world tasks. Tests file creation, research, data analysis, multi-step workflows, memory, error handling, and tool efficiency. Not a coding benchmark — measures your agent setup and config.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
641
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

agentbench

AgentBench for OpenClaw

在7个领域的40个真实世界任务中,对你的OpenClaw智能体通用能力进行基准测试。

命令

当用户说出以下任一命令时,请执行相应指令:

  • - /benchmark — 运行完整基准测试套件(全部40个任务)
  • /benchmark --fast — 仅运行简单+中等难度任务(19个任务)
  • /benchmark --suite <名称> — 仅运行单个领域
  • /benchmark --task — 运行单个任务
  • /benchmark --strict — 将结果标记为外部验证评分
  • /benchmark-list — 按领域列出所有任务
  • /benchmark-results — 显示之前运行的结果
  • /benchmark-compare — 并排比较两次运行

标志可组合使用:/benchmark --fast --suite research

运行基准测试

第一步:发现任务

读取本技能中 tasks/ 目录下的 task.yaml 文件:

tasks/{套件名称}/{任务名称}/task.yaml

每个 task.yaml 包含:名称、ID、套件、难度、模式、用户消息、输入文件、预期输出、预期指标、评分权重。

如果指定了 --suite 或 --task 则进行筛选。如果设置了 --fast 且未指定 --task,则仅筛选难度为简单或中等的任务。

如果指定了 --fast,则配置文件为快速,否则为完整。

显示已发现的任务数量及套件列表。

第二步:设置运行目录

根据当前时间戳生成运行ID:YYYYMMDD-HHmmss

从本技能目录中的 skill.json 读取 suite_version。

创建结果目录:

agentbench-results/{运行ID}/

宣布:开始 AgentBench 运行 {运行ID} | 配置文件:{配置文件} | 套件版本:{套件版本} | 任务数:{数量}

第三步:执行每个任务

对于每个任务:

  1. 1. 设置工作区
- 创建 /tmp/agentbench-task-{任务ID}/ 作为工作区 - 将输入文件从 tasks/{套件}/{任务}/inputs/ 复制到工作区(如果 inputs/ 存在) - 如果任务目录包含 setup.sh:运行 bash tasks/{套件}/{任务}/setup.sh {工作区路径} - 对于 file-unchanged 验证器:在设置后、任务执行前计算指定文件的校验和
  1. 2. 宣布:正在运行:{任务名称} [{任务套件}](难度:{任务难度})
  1. 3. 记录开始时间(毫秒):date +%s%3N
  1. 4. 直接自行执行任务
- 读取任务的 user_message 并像真实用户发送请求一样执行 - 仅在工作区目录内操作 - 如果列出了输入文件,则从工作区读取 - 自然执行——使用适当的工具(读取、写入、编辑、执行、网络搜索、网络获取等) - 在工作区目录中创建任何输出文件 - 完成后,在工作区中写入简短的 execution-trace.md: - 你对任务的理解 - 你采取的方法 - 你创建或修改的文件 - 遇到的困难或做出的决定
  1. 5. 记录结束时间并计算持续时间
  1. 6. 收集指标
- totaltimems:结束时间 - 开始时间 - toolcallstotal:统计在此任务期间进行的工具调用次数 - errors:统计任何工具调用失败 - planning_ratio:估计阅读/思考时间与产生输出时间的比例(近似即可)
  1. 7. 第0层——自动化结构检查(直接计算):
任务执行后,检查工作区。对于 expected_outputs 中的每个条目: - file-exists:检查文件是否存在。找到得30分,未找到得0分。 - content-contains:读取文件,检查每个必需的部分关键词(不区分大小写)。分数与找到的匹配数成比例。总分池:40分。 - word-count-range:统计字数。在范围内=30分。在2倍范围内=15分。超出=0分。 - git-log-contains:检查git日志中是否包含预期字符串。全部找到得30分,部分找到按比例得分。 - directory-structure:检查所有路径是否存在。全部存在得30分,部分存在按比例得分。 - command-output-contains:运行命令,检查输出是否包含所有字符串。匹配得30分,不匹配得0分。 - file-unchanged:将校验和与执行前校验和比较。未更改得30分,已修改得0分。 - link-consistency:扫描文件中的链接语法一致性。一致得30分,大部分一致(>70%使用一种风格)得15分,混合得0分。 - 将总分归一化到0-100。
  1. 8. 第1层——指标分析(直接计算):
如果任务有预期指标: - 工具调用在预期范围内:40分 - 工具调用在2倍范围内:20分 - 超出2倍范围:0分 - 规划比例在预期范围内:30分 - 规划比例超出但在2倍范围内:15分 - 严重偏离:0分 - 零错误:30分 - 1-2个错误:15分 - 3个以上错误:0分 - 归一化到0-100。如果没有可用指标,评分为50分。 - 令牌估算用于报告但不计分。
  1. 9. 第2层——行为分析(诚实自评,0-100):
根据执行方式进行评分:

指令遵循度(30分):
- 30:精确遵循所有指令
- 20:基本遵循,有轻微偏差
- 10:显著偏差
- 0:忽略或误解

工具适用性(25分)——基于规则优先:
- 惩罚:每次使用 exec cat 代替 read 读取文件扣10分
- 惩罚:每次使用 exec echo/printf 代替 write 创建文件扣10分
- 惩罚:每次使用 exec sed/awk 代替 edit 编辑文件扣5分
- 从25分开始,应用惩罚,最低0分

方法质量(25分)——检查先读后写:
- 25:在产生输出前读取了所有输入
- 15:读取了大部分输入,有少量遗漏
- 5:未读取上下文就开始产生输出
- 0:没有明确的方法

错误恢复(20分):
- 20:干净恢复或未发生错误
- 10:部分恢复
- 0:未能恢复

  1. 10. 第3层——输出质量(诚实自评,0-100):
对交付物进行评分:

完整性(25分): 满足所有要求?有无遗漏?
准确性(25分): 内容正确?计算准确?
格式(25分): 结构良好?文件格式正确?
精良度(25分): 用户会满意吗?

  1. 11. 计算综合得分

得分 = (L0 × 0.20) + (L1 × 0.35) + (L2 × 0.20) + (L3 × 0.25)

如果 task.yaml 中指定了权重则使用,否则使用这些默认值。

  1. 12. 保存任务结果到 agentbench-results/{运行ID}/{任务ID}/:
- scores.json:所有层级得分、综合得分、细分、备注 - metrics.json:计时、工具调用、错误、规划比例 - 复制输出文件
  1. 13. 显示:{任务名称}:{综合得分}/100(L0:{l0} L1:{l1} L2:{l2} L3:{l3})

第四步:生成报告

所有任务完成后:

  1. 1. 计算领域平均值(按套件分组,平均综合得分)
  2. 计算总体得分(领域得分的平均值——领域权重相等)
  3. 计算汇总指标

在 agentbench-results/{运行ID}/ 中生成三个文件:

results.json — 机器可读,结构如下:
json
{
run_id: 20260222-143022,
timestamp: 2026-02-22T14:30:22Z,
platform: openclaw,
mode

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 agentbench-1776419935 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 agentbench-1776419935 技能

通过命令行安装

skillhub install agentbench-1776419935

下载

⬇ 下载 agentbench v1.0.0(免费)

文件大小: 148.42 KB | 发布时间: 2026-4-17 19:21

v1.0.0 最新 2026-4-17 19:21
Initial release — 40 tasks, 7 domains, 4-layer scoring, cross-platform leaderboard

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部