LLM评估（深度工作流）

评估将“感觉更好”转化为可复现的证据。围绕你的产品关心的失败模式进行设计——而不仅仅是聚合分数。

何时提供此工作流

触发条件：

- 提示词或模型变更；需要变更前后的证明
为LLM输出构建CI；生产环境中质量不稳定
RAG/智能体：接地性、工具使用、安全性回归

初始提供：

使用六个阶段：(1)定义质量与约束，(2)构建数据集与评分标准，(3)自动指标，(4)人工评估，(5)回归与门控，(6)在线验证与迭代。确认延迟/成本预算和风险（PII、安全性）。

阶段1：定义质量与约束

目标： 命名维度，这些维度若失败将映射到用户损害。

典型维度（选择重要的）

- 正确性/任务成功率；接地性（RAG）；忠实度于来源
安全性：策略违规、越狱、PII泄露
风格：语气、简洁性、格式（当产品关键时）
鲁棒性：释义、多语言、边缘输入

约束

- 最大令牌数、延迟p95、每次请求成本；语言环境要求

退出条件： 维度的加权优先级；明确说明非目标。

阶段2：数据集与评分标准

目标： 固定的评估集 + 清晰的评分规则。

实践

- 按意图分层：简单/中等/困难；对抗性样本单独切片
评分标准：1–5分制，带锚点；安全性使用二元检查
版本化数据集（git或表格）；无变更日志则不进行静默编辑
隐私：根据策略使用合成或脱敏的真实示例

退出条件： 黄金集大小合理；若有人工评分，需有评分者间一致性计划。

阶段3：自动指标

目标： 快速信号——了解局限性。

选项

- 基于参考：BLEU/ROUGE——对助手类应用通常较弱
模型作为评判者：快速但有偏见——需与人类校准
任务特定：精确匹配、JSON模式有效性、工具调用参数匹配
RAG：引用重叠、关键点召回率、蕴含模型（谨慎使用）

卫生

- 不在测试集上训练；检测提示词中的泄露

退出条件： 每个自动指标都有已知盲点并记录在案。

阶段4：人工评估

目标： 在自动指标失效的地方提供权威性判断。

设计

- 为置信度确定样本量；尽可能进行盲测A/B对比
指南 + 示例；对分歧进行裁定
当语言质量重要时使用本地语言评分者

退出条件： 人工评分与自动评分足够相关以进行持续监控——或依赖人工进行发布决策。

阶段5：回归与门控

目标： 在CI或发布流水线中阻止不良部署。

门控

- 必须通过的套件：安全性、关键用户旅程
趋势跟踪：不仅是时间点数据
带在线指标的金丝雀发布（见阶段6）

产物

- 报告：模型/提示词ID、数据集版本、分数、差异

退出条件： 在发布前定义回滚标准。

阶段6：在线验证

目标： 生产环境真相——影子模式、A/B测试或逐步放量。

信号

- 隐式：点赞、编辑、任务完成、支持工单
显式：用户评分（稀疏）

因果性

- 混杂因素：季节性、用户群——尽可能控制

最终审查清单

- [ ] 为产品确定质量维度优先级
[ ] 版本化的评估集和评分标准
[ ] 明确自动+人工角色；记录局限性
[ ] 发布门控和回滚与指标挂钩
[ ] 在线反馈循环计划

有效指导技巧

- 切片指标——平均值会隐藏关键意图上的回归。
对于智能体，评估轨迹，而不仅仅是最终文本。
切勿声称客观真理——评估是操作化的判断。

偏差处理

- 无标签：从最小的成对比较集开始 + 抽查人工审查。
高风险（医疗/法律）：人在回路门控；声明自动评估的局限性。

llm-evaluationLLM评估流程

llm-evaluation

LLM Evaluation (Deep Workflow)

When to Offer This Workflow

Stage 1: Define Quality & Constraints

Typical dimensions (pick what matters)

Constraints

Stage 2: Datasets & Rubrics

Practices

Stage 3: Automatic Metrics

Options

Hygiene

Stage 4: Human Evaluation

Design

Stage 5: Regression & Gates

Gates

Artifacts

Stage 6: Online Validation

Signals

Causality

Final Review Checklist

Tips for Effective Guidance

Handling Deviations

LLM评估（深度工作流）

何时提供此工作流

阶段1：定义质量与约束

典型维度（选择重要的）

约束

阶段2：数据集与评分标准

实践

阶段3：自动指标

选项

卫生

阶段4：人工评估

设计

阶段5：回归与门控

门控

产物

阶段6：在线验证

信号

因果性

最终审查清单

有效指导技巧

偏差处理

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement