q_code

扫码关注官方微信

cell_code

扫码下载APP

返回顶部

a

aa-benchmarking-frameworkAA基准框架

>

作者: admin | 来源: ClawHub

下载

源自

ClawHub

版本

V 0.1.0

安全检测

已通过

100
下载量

免费
免费

0
收藏

概述

安装方式

版本历史

aa-benchmarking-framework

AA 基准测试框架

状态：草稿 — 该技能已规划但尚未完全实现。

功能说明

提供一套系统化的框架，用于通过综合评分、效率前沿分析和帕累托最优性进行多维度大语言模型评估。该框架并非基于单一指标对模型进行排名，而是帮助识别哪些模型是非支配的——即没有其他模型能在所有维度上同时表现更优。专为需要超越简单排行榜排名、进行有原则的模型选择的团队设计。

规划能力

- 支持可配置维度权重的综合评分（准确率、延迟、成本、召回率、F1值）
任意两个或多个评估维度的帕累托前沿检测
用于多维度比较的雷达/蜘蛛图可视化
跨基准测试运行的统计显著性检验（t检验、曼-惠特尼U检验）
与LangFuse集成，用于基于追踪的评估数据摄取
导出为CSV/JSON格式，供下游分析使用

使用场景

- 在竞争性目标下选择3个以上大语言模型提供商（如GPT-4o对比Claude 3.5对比Gemini）
为定期模型基准测试构建评估仪表板
向利益相关者展示模型选择依据，并提供可视化证据
运行效率前沿分析，以确定满足质量阈值的最优成本模型

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装：

OpenClaw WorkBuddy QClaw Kimi Claude

方式一：安装 SkillHub 和技能

帮我安装 SkillHub 和 aa-benchmarking-framework-1775969341 技能

方式二：设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源，然后帮我安装 aa-benchmarking-framework-1775969341 技能

通过命令行安装

skillhub install aa-benchmarking-framework-1775969341

下载

⬇ 下载 aa-benchmarking-framework v0.1.0（免费）

文件大小: 1.77 KB | 发布时间: 2026-4-13 09:07

v0.1.0 最新 2026-4-13 09:07

New skill: hypothesis-driven model evaluation framework for local inference routing

闲社论坛
关于我们会员介绍开通会员羊毛论坛
闲社论坛
羊毛交流论坛线报讨论社区优惠分享交流线报更新服务
网站服务
会员咨询：515151560 广告合作：515151570 投诉建议：515151580 售后指导：515151590

多链集团旗下-闲社网

闲社网热线

免费联系电话

0527-80111111

服务时间：周一到周日 8:00-24:00

公众号
闲社闲社线报社区

关注闲社网

闲社在线客服
关注闲社网微信
闲社网APP

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0 © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large

返回顶部