返回顶部
l

llm-evaluationLLM评估流程

Deep LLM evaluation workflow—quality dimensions, golden sets, human vs automatic metrics, regression suites, offline/online signals, and safe rollout gates for model or prompt changes. Use when shipping prompt updates, swapping models, or building eval harnesses for agents and RAG.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
151
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

llm-evaluation

LLM评估(深度工作流)

评估将“感觉更好”转化为可复现的证据。围绕你的产品关心的失败模式进行设计——而不仅仅是聚合分数。

何时提供此工作流

触发条件:

  • - 提示词或模型变更;需要变更前后的证明
  • 为LLM输出构建CI;生产环境中质量不稳定
  • RAG/智能体:接地性工具使用安全性回归

初始提供:

使用六个阶段:(1)定义质量与约束,(2)构建数据集与评分标准,(3)自动指标,(4)人工评估,(5)回归与门控,(6)在线验证与迭代。确认延迟/成本预算和风险(PII、安全性)。



阶段1:定义质量与约束

目标: 命名维度,这些维度若失败将映射到用户损害。

典型维度(选择重要的)

  • - 正确性/任务成功率;接地性(RAG);忠实度于来源
  • 安全性:策略违规、越狱、PII泄露
  • 风格:语气、简洁性、格式(当产品关键时)
  • 鲁棒性:释义、多语言、边缘输入

约束

  • - 最大令牌数延迟p95、每次请求成本语言环境要求

退出条件: 维度的加权优先级;明确说明非目标



阶段2:数据集与评分标准

目标: 固定的评估集 + 清晰的评分规则。

实践

  • - 按意图分层:简单/中等/困难;对抗性样本单独切片
  • 评分标准:1–5分制,带锚点;安全性使用二元检查
  • 版本化数据集(git或表格);无变更日志则进行静默编辑
  • 隐私:根据策略使用合成或脱敏的真实示例

退出条件: 黄金集大小合理;若有人工评分,需有评分者间一致性计划。



阶段3:自动指标

目标: 快速信号——了解局限性

选项

  • - 基于参考:BLEU/ROUGE——对助手类应用通常较弱
  • 模型作为评判者:快速但有偏见——需与人类校准
  • 任务特定:精确匹配、JSON模式有效性、工具调用参数匹配
  • RAG:引用重叠、关键点召回率、蕴含模型(谨慎使用)

卫生

  • - 在测试集上训练;检测提示词中的泄露

退出条件: 每个自动指标都有已知盲点并记录在案。



阶段4:人工评估

目标: 在自动指标失效的地方提供权威性判断。

设计

  • - 为置信度确定样本量;尽可能进行盲测A/B对比
  • 指南 + 示例;对分歧进行裁定
  • 当语言质量重要时使用本地语言评分者

退出条件: 人工评分与自动评分足够相关以进行持续监控——或依赖人工进行发布决策。



阶段5:回归与门控

目标:CI发布流水线中阻止不良部署。

门控

  • - 必须通过的套件:安全性、关键用户旅程
  • 趋势跟踪:不仅是时间点数据
  • 在线指标的金丝雀发布(见阶段6)

产物

  • - 报告:模型/提示词ID、数据集版本、分数、差异

退出条件: 在发布前定义回滚标准。



阶段6:在线验证

目标: 生产环境真相——影子模式、A/B测试或逐步放量。

信号

  • - 隐式:点赞、编辑、任务完成、支持工单
  • 显式:用户评分(稀疏)

因果性

  • - 混杂因素:季节性、用户群——尽可能控制

最终审查清单

  • - [ ] 为产品确定质量维度优先级
  • [ ] 版本化的评估集和评分标准
  • [ ] 明确自动+人工角色;记录局限性
  • [ ] 发布门控和回滚与指标挂钩
  • [ ] 在线反馈循环计划

有效指导技巧

  • - 切片指标——平均值会隐藏关键意图上的回归
  • 对于智能体,评估轨迹,而不仅仅是最终文本。
  • 切勿声称客观真理——评估是操作化的判断。

偏差处理

  • - 无标签:从最小成对比较集开始 + 抽查人工审查。
  • 高风险(医疗/法律):人在回路门控;声明自动评估的局限性

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 llm-evaluation-1776028683 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 llm-evaluation-1776028683 技能

通过命令行安装

skillhub install llm-evaluation-1776028683

下载

⬇ 下载 llm-evaluation v1.0.0(免费)

文件大小: 2.81 KB | 发布时间: 2026-4-13 10:53

v1.0.0 最新 2026-4-13 10:53
llm-evaluation 1.0.0

- Initial release of a comprehensive workflow for deep LLM evaluation.
- Covers definition of quality dimensions, dataset/rubric development, automatic and human evaluation, regression gates, and online validation.
- Guidance on when and how to apply the workflow, including trigger conditions and risk management.
- Includes detailed stage-by-stage practices, checklists, and tips for robust, reproducible model assessment.
- Tailored for use cases such as prompt/model updates, CI for LLM outputs, RAG, and agent evaluation.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部