返回顶部
a

advanced-evaluation高级评估

This skill should be used when the user asks to "implement LLM-as-judge", "compare model outputs", "create evaluation rubrics", "mitigate evaluation bias", or mentions direct scoring, pairwise comparison, position bias, evaluation pipelines, or automated quality assessment.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
130
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

advanced-evaluation

高级评估

本技能涵盖使用LLM作为评判者评估LLM输出的生产级技术。它将学术论文、行业实践和实际实施经验中的研究成果综合为可操作的模式,用于构建可靠的评估系统。

关键洞察:LLM作为评判者并非单一技术,而是一系列方法,每种方法适用于不同的评估场景。选择正确的方法并减轻已知偏差是本技能培养的核心能力。

何时激活

在以下情况下激活本技能:

  • - 为LLM输出构建自动化评估流水线
  • 比较多个模型响应以选择最佳结果
  • 在评估团队中建立一致的质量标准
  • 调试显示不一致结果的评估系统
  • 为提示词或模型变更设计A/B测试
  • 创建人工或自动化评估的评分标准
  • 分析自动化评估与人工判断之间的相关性

核心概念

评估分类法

评估方法分为两个主要类别,具有不同的可靠性特征:

直接评分:单个LLM按照定义的量表对一个响应进行评分。

  • - 最佳适用:客观标准(事实准确性、指令遵循、毒性检测)
  • 可靠性:对于定义明确的标准为中等至高等
  • 失败模式:评分校准漂移、量表解释不一致

成对比较:LLM比较两个响应并选择较优者。

  • - 最佳适用:主观偏好(语气、风格、说服力)
  • 可靠性:对于偏好评估高于直接评分
  • 失败模式:位置偏差、长度偏差

来自MT-Bench论文(Zheng等人,2023)的研究表明,在基于偏好的评估中,成对比较比直接评分与人类评判者的一致性更高,而直接评分仍适用于具有明确客观事实的客观标准。

偏差全景

LLM评判者表现出必须主动缓解的系统性偏差:

位置偏差:在成对比较中,第一个位置的响应受到优待。缓解措施:交换位置评估两次,使用多数投票或一致性检查。

长度偏差:较长的响应无论质量如何都获得更高评分。缓解措施:明确提示忽略长度,长度归一化评分。

自我增强偏差:模型对自己的输出评分更高。缓解措施:使用不同模型进行生成和评估,或承认局限性。

冗长偏差:即使不必要,详细解释也会获得更高分数。缓解措施:针对特定标准的评分标准,惩罚无关细节。

权威偏差:无论准确性如何,自信、权威的语气获得更高评分。缓解措施:要求引用证据、事实核查层。

指标选择框架

根据评估任务结构选择指标:

任务类型主要指标次要指标
二元分类(通过/失败)召回率、精确率、F1Cohens κ
序数量表(1-5评分)
Spearmans ρ、Kendalls τ | Cohens κ(加权) |
| 成对偏好 | 一致率、位置一致性 | 置信度校准 |
| 多标签 | Macro-F1、Micro-F1 | 每个标签的精确率/召回率 |

关键洞察:绝对一致性高不如系统性不一致模式重要。一个在特定标准上与人类持续不一致的评判者比具有随机噪声的评判者问题更大。

评估方法

直接评分实现

直接评分需要三个组成部分:明确的标准、校准的量表和结构化的输出格式。

标准定义模式

标准:[名称]
描述:[该标准衡量的内容]
权重:[相对重要性,0-1]

量表校准

  • - 1-3量表:带中立选项的二元量表,认知负荷最低
  • 1-5量表:标准李克特量表,粒度与可靠性的良好平衡
  • 1-10量表:粒度较高但校准难度大,仅与详细评分标准一起使用

直接评分的提示结构

你是一位评估响应质量的专家评估者。

任务

根据每个标准评估以下响应。

原始提示

{提示}

待评估响应

{响应}

标准

{每个标准:名称、描述、权重}

说明

对于每个标准:
  1. 1. 在响应中找到具体证据
  2. 根据评分标准打分(1-{最大值}量表)
  3. 用证据证明你的分数
  4. 提出一个具体的改进建议

输出格式

以结构化JSON格式响应,包含分数、理由和摘要。

思维链要求:所有评分提示必须在给出分数之前要求提供理由。研究表明,与先评分的方法相比,这可将可靠性提高15-25%。

成对比较实现

对于基于偏好的评估,成对比较本质上更可靠,但需要偏差缓解。

位置偏差缓解协议

  1. 1. 第一轮:响应A在第一位,响应B在第二位
  2. 第二轮:响应B在第一位,响应A在第二位
  3. 一致性检查:如果两轮结果不一致,返回平局并降低置信度
  4. 最终裁决:一致胜出者,取平均置信度

成对比较的提示结构

你是一位比较两个AI响应的专家评估者。

关键说明

  • - 不要因为响应较长而偏好它
  • 不要基于位置(第一个与第二个)偏好响应
  • 仅根据指定标准关注质量
  • 当响应确实等价时,平局是可接受的

原始提示

{提示}

响应A

{response_a}

响应B

{response_b}

比较标准

{标准列表}

说明

  1. 1. 首先独立分析每个响应
  2. 在每个标准上比较它们
  3. 确定总体胜出者及置信度水平

输出格式

JSON格式,包含每个标准的比较、总体胜出者、置信度(0-1)和推理过程。

置信度校准:置信度分数应反映位置一致性:

  • - 两轮一致:置信度 = 各轮置信度的平均值
  • 两轮不一致:置信度 = 0.5,判定 = 平局

评分标准生成

与开放式评分相比,定义良好的评分标准可将评估方差降低40-60%。

评分标准组成部分

  1. 1. 等级描述:每个分数等级的明确界限
  2. 特征:定义每个等级的可观察特征
  3. 示例:每个等级的代表性文本(可选但有价值)
  4. 边缘情况:对模糊情况的指导
  5. 评分指南:一致应用的一般原则

严格度校准

  • - 宽松:通过分数的门槛较低,适合鼓励迭代
  • 平衡:公平,生产使用的典型期望
  • 严格:高标准,适合安全关键或高风险的评估

领域适应:评分标准应使用领域特定术语。代码可读性评分标准提及变量、函数和注释。医学准确性评分标准引用临床术语和证据标准。

实用指南

评估流水线设计

生产评估系统需要多个层次:

┌─────────────────────────────────────────────────┐
│ 评估流水线 │
├─────────────────────────────────────────────────┤
│ │
│ 输入:响应 + 提示 + 上下文 │
│ │ │
│ ▼ │
│ ┌─────────────────────┐ │
│ │ 标准加载器 │ ◄── 评分标准、权重 │
│ └──────────┬──────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────┐ │
│ │ 主要评分器 │ ◄── 直接或成对 │
│ └──────────┬──────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────┐ │
│ │ 偏差缓解 │ ◄── 位置交换等 │
│ └──────────┬──────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────┐ │
│ │ 置信度评分 │ ◄── 校准 │
│ └──────────┬──────────┘ │
│ │ │
│ ▼ │
│ 输出:分数 + 理由 + 置信度 │
│ │
└─────────────────────────────────────────────────┘

常见反模式

反模式:无理由的评分

  • - 问题:分数缺乏依据,难以调试或改进
  • 解决方案:始终要求在评分前提供基于证据的理由

反模式:单轮成对比较

  • - 问题:位置偏差污染结果
  • 解决方案:始终交换位置并检查一致性

反模式:过载的标准

  • - 问题:衡量多个事物的标准不可靠
  • 解决方案:一个标准 = 一个可衡量的方面

反模式:缺少边缘情况指导

  • - 问题:评估者对模糊情况的处理不一致
  • 解决方案:在评分标准中包含边缘情况并提供明确指导

反模式:忽略置信度校准

  • - 问题:高置信度的错误判断比低置信度更糟糕
  • 解决方案:将置信度校准到位置一致性和证据强度

决策框架:直接评分与成对比较

使用此决策树:

是否存在客观事实

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 advanced-evaluation-1775889797 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 advanced-evaluation-1775889797 技能

通过命令行安装

skillhub install advanced-evaluation-1775889797

下载

⬇ 下载 advanced-evaluation v1.0.0(免费)

文件大小: 6.62 KB | 发布时间: 2026-4-12 08:39

v1.0.0 最新 2026-4-12 08:39
Initial release of advanced-evaluation, a comprehensive skill for building robust LLM evaluation systems.

- Provides actionable guidance for implementing LLM-as-judge in automated pipelines.
- Explains evaluation methods: direct scoring vs. pairwise comparison, with reliability and bias considerations.
- Details systemic LLM biases (e.g., position, length, self-enhancement) and mitigation strategies.
- Outlines metric selection frameworks for different evaluation tasks.
- Supplies prompt templates and protocols for direct scoring, pairwise comparison, and rubric creation.
- Offers practical patterns for evaluation pipeline design and rubric adaptation by domain.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部