返回顶部
h

hle-benchmark-evolverHLE基准进化器

Runs HLE-oriented benchmark reward ingestion and curriculum generation for capability-evolver. Use when the user asks to optimize Humanity's Last Exam score, ingest question-level benchmark results, prioritize easy-first queues, or request an immediate benchmark progress result.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
706
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

hle-benchmark-evolver

HLE基准测试进化器

该技能实现了基于HLE分数的OpenClaw进化驱动。

使用场景

  • - 用户要求提升HLE分数(例如目标≥60%)
  • 用户提供问题级别的基准测试输出并希望将其转换为奖励
  • 用户想要简易优先的课程队列和下一重点问题
  • 用户请求立即获取基准测试结果快照

输入

  • - 基准测试报告JSON路径(--report=/abs/path/report.json)
  • 可选的基准测试ID(默认为cais/hle)

工作流程

  1. 1. 验证报告JSON存在且可解析
  2. 将报告导入capability-evolver基准测试奖励状态
  3. 生成课程信号:
- benchmark_* - curriculum_stage:* - focus_subject:* - focus_modality:* - question_focus:*
  1. 4. 返回本次运行的紧凑结果摘要

运行

bash
node skills/hle-benchmark-evolver/runresult.js --report=/absolute/path/hlereport.json

完整自动循环(启动进化周期):

bash
node skills/hle-benchmark-evolver/runpipeline.js --report=/absolute/path/hlereport.json --cycles=1

如果评估器可从shell调用,让管道在每个周期生成报告:

bash
node skills/hle-benchmark-evolver/run_pipeline.js \
--report=/absolute/path/hle_report.json \
--evalcmd=python /path/to/evalhle.py --out {{report}} \
--cycles=3 --interval_ms=2000

如果未提供--report,默认使用:

skills/capability-evolver/assets/gep/hle_report.template.json

输出约定

始终打印包含以下字段的JSON:

  • - benchmarkid
  • runid
  • accuracy
  • reward
  • trend
  • curriculumstage
  • queuesize
  • focussubjects
  • focusmodalities
  • next_questions

注意事项

  • - 该技能处理奖励/课程导入,不直接解决HLE问题
  • run_pipeline.js将导入、进化和固化连接成一个可执行循环

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 hle-benchmark-evolver-1776420054 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 hle-benchmark-evolver-1776420054 技能

通过命令行安装

skillhub install hle-benchmark-evolver-1776420054

下载

⬇ 下载 hle-benchmark-evolver v1.0.0(免费)

文件大小: 7.51 KB | 发布时间: 2026-4-17 19:01

v1.0.0 最新 2026-4-17 19:01
- Initial release of hle-benchmark-evolver skill for OpenClaw.
- Enables ingestion of HLE benchmark report JSONs to drive curriculum and evolution workflows.
- Supports easy-first curriculum queues, focus area suggestion, and immediate result summaries.
- Offers shell commands for both single-run and fully automated evolution-feedback loops.
- Always outputs compact, structured JSON summarizing key progress metrics and curriculum focus.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部