返回顶部
o

observability-slos可观测性SLO

Deep SLO/SLI workflow—user-centric SLIs, SLO targets and windows, error budgets, multi-window burn alerts, and policy when budget is exhausted. Use when defining reliability targets or aligning eng and product on trade-offs.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
110
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

observability-slos

可观测性与服务等级目标(深度工作流)

服务等级目标将工程工作用户感知的可靠性联系起来。服务等级指标必须可从系统测量,但以用户旅程为基础

何时提供此工作流

触发条件:

  • - 定义了99.9% 但未定义针对什么
  • 告警过多或过少;需要错误预算纪律
  • 产品追求功能而稳定性下降

初始提供:

使用六个阶段:(1) 选择用户旅程,(2) 定义服务等级指标,(3) 设定服务等级目标阈值与窗口,(4) 错误预算策略,(5) 基于预算消耗的告警,(6) 审查与迭代。确认指标栈和来自供应商的依赖服务等级目标。



阶段1:用户旅程

目标: 一旦中断就会产生影响的关键路径——结账、登录、API同步,而非“CPU使用率低”。

输出

业务影响频率排序的3–10个旅程。

退出条件: 每个旅程一段描述:用户意图 + 故障症状。



阶段2:定义服务等级指标

目标: 在时间窗口内好事件占总事件的比率——实现方式需明确。

示例

  • - 可用性:成功请求 / 有效请求(定义“有效”)
  • 延迟:响应快于T毫秒的请求比例

良好的服务等级指标

  • - 客观低基数,足以可靠测量

退出条件: 服务等级指标公式 + 数据源(指标、日志、探针)。



阶段3:服务等级目标阈值与窗口

目标: 阈值(例如,月度99.9%)意味着允许的故障分钟数——需明确说明。

实践

  • - 滚动30天常见;与发布节奏对齐
  • 分层服务:并非所有服务都需要相同的服务等级目标

退出条件: 发布表格:旅程 → 服务等级指标 → 阈值 → 窗口。



阶段4:错误预算策略

目标: 预算健康时预算耗尽时我们做什么

策略建议

  • - 预算健康 → 发布功能;预算不足 → 冻结风险变更,聚焦可靠性
  • 预算快速消耗时升级处理(多窗口告警)

退出条件: 经产品签署的书面策略。



阶段5:基于消耗的告警

目标: 基于预算消耗速率告警,而非每次波动——使用Google风格的服务等级目标告警时采用多窗口 多消耗速率模式。

实践

  • - 快速消耗 = 立即告警;慢速消耗 = 创建工单/跟踪

退出条件: 告警规则关联到运行手册。



阶段6:审查与迭代

目标: 服务等级目标随架构漂移——季度审查;根据数据调整阈值。



最终审查清单

  • - [ ] 旅程和服务等级指标与真实用户痛点关联
  • [ ] 阈值相对于依赖和成本现实可行
  • [ ] 错误预算策略已与产品达成一致
  • [ ] 告警基于消耗,而非嘈杂的症状垃圾信息
  • [ ] 已安排审查节奏

有效指导技巧

  • - 将99.9% 转换为每月允许的故障分钟数
  • 服务等级协议(合同)与服务等级目标(内部)——不要混淆。
  • 依赖的服务等级目标限制了你所能承诺的范围——尽早揭示这一点。

处理偏差

  • - 尚无指标:从代理服务等级指标(合成探针)开始,并改进仪表化。
  • 批处理系统:使用事件处理延迟作为服务等级指标,而非HTTP。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 observability-slos-1776028882 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 observability-slos-1776028882 技能

通过命令行安装

skillhub install observability-slos-1776028882

下载

⬇ 下载 observability-slos v1.0.0(免费)

文件大小: 2.31 KB | 发布时间: 2026-4-13 11:14

v1.0.0 最新 2026-4-13 11:14
- Initial release of the observability-slos skill with a deep, user-centric SLO/SLI workflow.
- Guides users through six structured stages: selecting user journeys, defining SLIs, setting SLO targets and windows, establishing error budget policy, configuring burn-rate alerting, and continuous review.
- Emphasizes actionable output, practical exit conditions, and alignment between engineering and product.
- Includes a final review checklist, real-world tips, and deviation handling for systems without metrics or with batch processing.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部