返回顶部
a

auto-arena自动竞技场

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
215
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

auto-arena

Auto Arena 技能

使用 OpenJudge AutoArenaPipeline 进行端到端自动化模型对比:

  1. 1. 生成查询 — LLM 根据任务描述生成多样化的测试查询
  2. 收集响应 — 并发查询所有目标端点
  3. 生成评分标准 — LLM 根据任务和示例查询生成评估标准
  4. 成对评估 — 评判模型比较每一对模型(含位置偏差交换)
  5. 分析与排名 — 计算胜率、胜率矩阵和排名
  6. 报告与图表 — Markdown 报告 + 胜率柱状图 + 可选矩阵热力图

前置条件

bash

安装 OpenJudge


pip install py-openjudge

auto_arena 的额外依赖(图表生成)

pip install matplotlib

运行前需从用户处收集的信息

信息是否必需说明
任务描述模型/智能体应执行的任务(在 YAML 配置中设置)
目标端点
是 | 至少 2 个兼容 OpenAI 的端点进行比较 | | 评判端点 | 是 | 用于成对评估的强模型(例如 gpt-4、qwen-max) | | API 密钥 | 是 | 环境变量:OPENAIAPIKEY、DASHSCOPEAPIKEY 等 | | 查询数量 | 否 | 默认值:20 | | 种子查询 | 否 | 用于指导生成风格的示例查询 | | 系统提示词 | 否 | 每个端点的系统提示词 | | 输出目录 | 否 | 默认值:./evaluation_results | | 报告语言 | 否 | zh(默认)或 en |

快速开始

CLI

bash

运行评估


python -m cookbooks.auto_arena --config config.yaml --save

使用预生成的查询

python -m cookbooks.auto_arena --config config.yaml \ --queries_file queries.json --save

全新开始,忽略检查点

python -m cookbooks.auto_arena --config config.yaml --fresh --save

仅使用新的评判模型重新运行成对评估

(保留查询、响应和评分标准)

python -m cookbooks.auto_arena --config config.yaml --rerun-judge --save

Python API

python
import asyncio
from cookbooks.autoarena.autoarena_pipeline import AutoArenaPipeline

async def main():
pipeline = AutoArenaPipeline.from_config(config.yaml)
result = await pipeline.evaluate()

print(f最佳模型: {result.best_pipeline})
for rank, (model, win_rate) in enumerate(result.rankings, 1):
print(f{rank}. {model}: {win_rate:.1%})

asyncio.run(main())

最小化 Python API(无需配置文件)

python
import asyncio
from cookbooks.autoarena.autoarena_pipeline import AutoArenaPipeline
from cookbooks.auto_arena.schema import OpenAIEndpoint

async def main():
pipeline = AutoArenaPipeline(
task_description=电商客服聊天机器人,
target_endpoints={
gpt4: OpenAIEndpoint(
base_url=https://api.openai.com/v1,
api_key=sk-...,
model=gpt-4,
),
qwen: OpenAIEndpoint(
base_url=https://dashscope.aliyuncs.com/compatible-mode/v1,
api_key=sk-...,
model=qwen-max,
),
},
judge_endpoint=OpenAIEndpoint(
base_url=https://api.openai.com/v1,
api_key=sk-...,
model=gpt-4,
),
num_queries=20,
)
result = await pipeline.evaluate()
print(f最佳: {result.best_pipeline})

asyncio.run(main())

CLI 选项

标志默认值描述
--configYAML 配置文件路径(必需)
--output_dir
配置值 | 覆盖输出目录 | | --queries_file | — | 预生成查询 JSON 文件路径(跳过生成) | | --save | False | 将结果保存到文件 | | --fresh | False | 全新开始,忽略检查点 | | --rerun-judge | False | 仅重新运行成对评估(保留查询/响应/评分标准) |

最小化配置文件

yaml
task:
description: 用于研究和写作任务的学术 GPT 助手

target_endpoints:
model_v1:
base_url: https://api.openai.com/v1
apikey: ${OPENAIAPI_KEY}
model: gpt-4
model_v2:
base_url: https://api.openai.com/v1
apikey: ${OPENAIAPI_KEY}
model: gpt-3.5-turbo

judge_endpoint:
base_url: https://api.openai.com/v1
apikey: ${OPENAIAPI_KEY}
model: gpt-4

完整配置参考

task

字段必需描述
description模型将接受测试的任务的清晰描述
scenario
否 | 用于额外上下文的场景 |

target_endpoints.\

字段默认值描述
baseurlAPI 基础 URL(必需)
apikey
— | API 密钥,支持 ${ENV_VAR}(必需) | | model | — | 模型名称(必需) | | system_prompt | — | 此端点的系统提示词 | | extraparams | — | 额外 API 参数(例如 temperature、maxtokens) |

judge_endpoint

与 target_endpoints. 字段相同。使用强模型(例如 gpt-4、qwen-max),温度设为较低值(~0.1)以获得一致的评判。

query_generation

字段默认值描述
numqueries20生成的查询总数
seedqueries
— | 用于指导生成风格的示例查询 | | categories | — | 带权重的查询类别,用于分层生成 | | endpoint | 评判端点 | 用于查询生成的自定义端点 | | queriespercall | 10 | 每次 API 调用生成的查询数(1–50) | | numparallelbatches | 3 | 并行生成批次 | | temperature | 0.9 | 采样温度(0.0–2.0) | | top_p | 0.95 | Top-p 采样(0.0–1.0) | | max_similarity | 0.85 | 去重相似度阈值(0.0–1.0) | | enable_evolution | false | 启用 Evol-Instruct 复杂度进化 | | evolution_rounds | 1 | 进化轮次(0–3) | | complexitylevels | [constraints, reasoning, edgecases] | 进化策略 |

evaluation

字段默认值描述
max_concurrency10最大并发 API 请求数
timeout
60 | 请求超时时间(秒) | | retry_times | 3 | 失败请求的重试次数 |

output

字段默认值描述
outputdir./evaluationresults输出目录
save_queries
true | 保存生成的查询 | | save_responses | true | 保存模型响应 | | save_details | true | 保存详细结果 |

report

字段默认值描述
enabledfalse启用 Markdown 报告生成
language
zh | 报告语言:zh 或 en | | include_examples | 3 | 每节示例数(1–10) | | chart.enabled | true | 生成胜率图表 | | chart.orientation | horizontal |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 auto-arena-1776380042 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 auto-arena-1776380042 技能

通过命令行安装

skillhub install auto-arena-1776380042

下载

⬇ 下载 auto-arena v1.0.0(免费)

文件大小: 4.09 KB | 发布时间: 2026-4-17 14:08

v1.0.0 最新 2026-4-17 14:08
Initial release of Auto Arena: end-to-end automated arena evaluation and ranking for AI models or agents.

- Automatically generates test queries and evaluation rubrics from your task description.
- Concurrently collects responses from multiple model endpoints; supports at least 2 models or agents.
- Uses a strong judge model to run pairwise, position-bias-mitigated comparisons across all models.
- Produces win-rate rankings, bar charts, optional heatmaps, and full Markdown reports.
- Resumable, supports incremental endpoint addition, checkpointing, and judge model hot-swap.
- Provides both CLI and Python API usage with extensive configuration and customization options.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部