可观测性与服务等级目标（深度工作流）

服务等级目标将工程工作与用户感知的可靠性联系起来。服务等级指标必须可从系统测量，但以用户旅程为基础。

何时提供此工作流

触发条件：

- 定义了99.9% 但未定义针对什么
告警过多或过少；需要错误预算纪律
产品追求功能而稳定性下降

初始提供：

使用六个阶段：(1) 选择用户旅程，(2) 定义服务等级指标，(3) 设定服务等级目标阈值与窗口，(4) 错误预算策略，(5) 基于预算消耗的告警，(6) 审查与迭代。确认指标栈和来自供应商的依赖服务等级目标。

阶段1：用户旅程

目标： 一旦中断就会产生影响的关键路径——结账、登录、API同步，而非“CPU使用率低”。

输出

按业务影响和频率排序的3–10个旅程。

退出条件： 每个旅程一段描述：用户意图 + 故障症状。

阶段2：定义服务等级指标

目标： 在时间窗口内好事件占总事件的比率——实现方式需明确。

示例

- 可用性：成功请求 / 有效请求（定义“有效”）
延迟：响应快于T毫秒的请求比例

良好的服务等级指标

- 客观，低基数，足以可靠测量

退出条件： 服务等级指标公式 + 数据源（指标、日志、探针）。

阶段3：服务等级目标阈值与窗口

目标： 阈值（例如，月度99.9%）意味着允许的故障分钟数——需明确说明。

实践

- 滚动30天常见；与发布节奏对齐
分层服务：并非所有服务都需要相同的服务等级目标

退出条件： 发布表格：旅程 → 服务等级指标 → 阈值 → 窗口。

阶段4：错误预算策略

目标： 预算健康时与预算耗尽时我们做什么。

策略建议

- 预算健康 → 发布功能；预算不足 → 冻结风险变更，聚焦可靠性
预算快速消耗时升级处理（多窗口告警）

退出条件： 经产品签署的书面策略。

阶段5：基于消耗的告警

目标： 基于预算消耗速率告警，而非每次波动——使用Google风格的服务等级目标告警时采用多窗口 多消耗速率模式。

实践

- 快速消耗 = 立即告警；慢速消耗 = 创建工单/跟踪

退出条件： 告警规则关联到运行手册。

阶段6：审查与迭代

目标： 服务等级目标随架构漂移——季度审查；根据数据调整阈值。

最终审查清单

- [ ] 旅程和服务等级指标与真实用户痛点关联
[ ] 阈值相对于依赖和成本现实可行
[ ] 错误预算策略已与产品达成一致
[ ] 告警基于消耗，而非嘈杂的症状垃圾信息
[ ] 已安排审查节奏

有效指导技巧

- 将99.9% 转换为每月允许的故障分钟数。
服务等级协议（合同）与服务等级目标（内部）——不要混淆。
依赖的服务等级目标限制了你所能承诺的范围——尽早揭示这一点。

处理偏差

- 尚无指标：从代理服务等级指标（合成探针）开始，并改进仪表化。
批处理系统：使用事件处理延迟作为服务等级指标，而非HTTP。

observability-slos可观测性SLO

observability-slos

Observability & SLOs (Deep Workflow)

When to Offer This Workflow

Stage 1: User Journeys

Output

Stage 2: Define SLIs

Examples

Good SLIs

Stage 3: SLO Targets & Windows

Practices

Stage 4: Error Budget Policy

Policy ideas

Stage 5: Alerting on Burn

Practices

Stage 6: Review & Iterate

Final Review Checklist

Tips for Effective Guidance

Handling Deviations

可观测性与服务等级目标（深度工作流）

何时提供此工作流

阶段1：用户旅程

输出

阶段2：定义服务等级指标

示例

良好的服务等级指标

阶段3：服务等级目标阈值与窗口

实践

阶段4：错误预算策略

策略建议

阶段5：基于消耗的告警

实践

阶段6：审查与迭代

最终审查清单

有效指导技巧

处理偏差

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement