返回顶部
e

evalpalEvalPal评估

Run AI agent evaluations via EvalPal — trigger eval runs, check results, and

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
124
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

evalpal

EvalPal 技能

在聊天中直接运行AI智能体评估。触发评估运行、轮询结果以及列出可用的评估定义——全部在聊天中完成。

前置条件

在您的OpenClaw技能配置中设置以下环境变量:

变量是否必需描述
EVALPALAPIKEY您的EvalPal API密钥(以sk开头)
EVALPALAPI_URL
否 | 基础URL(默认为https://evalpal.dev) |

evalpal.dev设置 → API密钥获取您的API密钥。

命令

/evalpal run --eval-id

触发评估运行并等待结果。

用法:

bash
bash scripts/run-eval.sh --eval-id <评估定义ID>

功能说明:

  1. 1. 通过EvalPal API触发新的评估运行
  2. 使用指数退避策略轮询完成状态(最长5分钟)
  3. 获取结果并将其格式化为可读的Markdown格式

示例输出:

✅ 剧集质量 — 通过 (15/16)
├── 测试用例 tc_001: ✓ 通过
├── 测试用例 tc_002: ✓ 通过
├── 测试用例 tc_003: ✗ 失败
└── 另有12个通过...

运行ID: run_abc123 · 16个测试用例 · 47秒

退出码: 0 = 全部通过,1 = 存在失败或错误。

/evalpal status --run-id

检查正在运行的评估的当前状态。

用法:

bash
bash scripts/check-status.sh --run-id <运行ID>

示例输出:

📊 运行状态:run_abc123
状态:运行中
开始时间:2026-03-26T20:00:00Z

/evalpal list

列出您项目中可用的评估定义。

用法:

bash
bash scripts/list-evals.sh [--project-id <项目ID>]

如果省略--project-id,则列出所有项目的评估定义。

示例输出:

📋 评估定义

项目:AI劳动力实验室
abc123 剧集质量检查
def456 事实准确性评估

项目:客服机器人
ghi789 回复质量

错误处理

所有脚本均处理常见错误情况:

场景输出退出码
未设置API密钥错误:未设置EVALPALAPIKEY1
API密钥无效
错误:身份验证失败 (401) | 1 |
| 评估未找到 | 错误:未找到评估定义 (404) | 1 |
| 请求频率受限 | 错误:请求频率受限 — 请在Xs后重试 (429) | 1 |
| 超时(5分钟) | 错误:评估在300秒后超时 | 1 |
| 网络错误 | 错误:无法连接EvalPal API | 1 |

安全性

  • - API密钥仅从EVALPALAPIKEY环境变量读取
  • 脚本从不回显或记录API密钥
  • 所有API调用均使用HTTPS

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 evalpal-1775996230 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 evalpal-1775996230 技能

通过命令行安装

skillhub install evalpal-1775996230

下载

⬇ 下载 evalpal v1.0.1(免费)

文件大小: 7.59 KB | 发布时间: 2026-4-13 10:11

v1.0.1 最新 2026-4-13 10:11
Declare EVALPAL_API_KEY env var and curl/jq binary requirements in registry metadata

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部