返回顶部
a

aa-benchmarking-frameworkAA基准框架

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
100
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

aa-benchmarking-framework

AA 基准测试框架

状态:草稿 — 该技能已规划但尚未完全实现。

功能说明

提供一套系统化的框架,用于通过综合评分、效率前沿分析和帕累托最优性进行多维度大语言模型评估。该框架并非基于单一指标对模型进行排名,而是帮助识别哪些模型是非支配的——即没有其他模型能在所有维度上同时表现更优。专为需要超越简单排行榜排名、进行有原则的模型选择的团队设计。

规划能力

  • - 支持可配置维度权重的综合评分(准确率、延迟、成本、召回率、F1值)
  • 任意两个或多个评估维度的帕累托前沿检测
  • 用于多维度比较的雷达/蜘蛛图可视化
  • 跨基准测试运行的统计显著性检验(t检验、曼-惠特尼U检验)
  • 与LangFuse集成,用于基于追踪的评估数据摄取
  • 导出为CSV/JSON格式,供下游分析使用

使用场景

  • - 在竞争性目标下选择3个以上大语言模型提供商(如GPT-4o对比Claude 3.5对比Gemini)
  • 为定期模型基准测试构建评估仪表板
  • 向利益相关者展示模型选择依据,并提供可视化证据
  • 运行效率前沿分析,以确定满足质量阈值的最优成本模型

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 aa-benchmarking-framework-1775969341 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 aa-benchmarking-framework-1775969341 技能

通过命令行安装

skillhub install aa-benchmarking-framework-1775969341

下载

⬇ 下载 aa-benchmarking-framework v0.1.0(免费)

文件大小: 1.77 KB | 发布时间: 2026-4-13 09:07

v0.1.0 最新 2026-4-13 09:07
New skill: hypothesis-driven model evaluation framework for local inference routing

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部