返回顶部
p

postmortems事后复盘工作流

Deep blameless postmortem workflow—timeline, impact, root cause vs contributing factors, what went well/poorly, action items with owners, and follow-through. Use after incidents, outages, or near-misses to improve reliability culture.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
100
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

postmortems

事后复盘(深度工作流)

一次好的事后复盘应学习而不归咎个人。它应产出有主责行动项,以减少复发改进检测——而非泛泛的“我们会加强沟通”。

何时提供此工作流

触发条件:

  • - 严重事故、客户可见中断、数据丢失风险
  • 值得记录的险兆事件(运气避免了影响)
  • 存在追责文化风险——需要引导框架

初始提供:

使用六个阶段:(1)范围与受众,(2)时间线与影响,(3)根因分析,(4)有效/无效措施,(5)行动项,(6)沟通与跟进)。确认内部专用面向客户摘要的区分。



阶段1:范围与受众

目标: 明确读者(高管、工程、客服)和敏感度(PII、安全细节需脱敏)。

实践

  • - 在邀请函和模板中采用无责框架

退出条件: 选定模板;确定最终文档负责人。



阶段2:时间线与影响

目标: 建立分钟级时间线(使用UTC);区分发现时间开始时间缓解时间解决时间

影响

  • - 受影响的用户数持续时间、相关数据完整性SLA违约情况

退出条件: 客户沟通内容与此处事实保持一致。



阶段3:根因分析

目标:五个为什么鱼骨图作为工具而非仪式——根因促成因素需分开。

实践

  • - 根因:能阻止同类问题复发修复方案(需有证据
  • 促成因素:流程问题、缺失的测试、告警盲区

退出条件: 没有任何个人被列为“根因”



阶段4:有效/无效措施

目标: 强化好的做法(运行手册、遵循流程的功臣),修复不足之处(缺失的仪表盘)。



阶段5:行动项

目标: 创建具体可追踪的工单,明确负责人截止日期;类型包括:预防检测恢复流程改进

实践

  • - 避免模糊的“增加监控”而不写明指标名称

退出条件: 行动项已关联到问题追踪系统



阶段6:沟通与跟进

目标: 向组织分享摘要;在30/60天复查完成情况

实践

  • - 若客户承诺要求,则提供对外事后复盘

最终审查清单

  • - [ ] 无责语气;事实与时间线清晰
  • [ ] 尽可能量化影响
  • [ ] 区分根因与促成因素
  • [ ] 行动项有主责、有日期、可追踪
  • [ ] 已安排跟进复查

有效指导建议

  • - 严重程度应与事后复盘深度匹配(小事件采用轻量级复盘)。
  • 在附录中为工程师链接相关指标追踪数据
  • 心理安全能促进坦诚——领导层必须以身作则

偏差处理

  • - 安全事件:在公开细节前与法务协调
  • 同类故障重复发生升级架构评审SLO审查

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 postmortems-1776030867 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 postmortems-1776030867 技能

通过命令行安装

skillhub install postmortems-1776030867

下载

⬇ 下载 postmortems v1.0.0(免费)

文件大小: 2.22 KB | 发布时间: 2026-4-13 11:35

v1.0.0 最新 2026-4-13 11:35
- Initial release of the "postmortems" skill with a structured, blameless postmortem workflow.
- Six clear stages: scope & audience, timeline & impact, root cause vs contributing factors, what worked/what didn’t, action items (owners/dates), communication and follow-up.
- Emphasis on owned, specific actions and psychological safety to drive learning and reliability culture.
- Includes tips for tailoring depth to severity, linking to metrics, and guidance for sensitive/security incidents.
- Comprehensive checklist ensures clarity, accountability, and scheduled follow-up.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部