返回顶部
u

uplo-devopsAI运维知识库

AI-powered DevOps knowledge management. Search runbooks, infrastructure documentation, CI/CD pipelines, and incident response procedures with structured extraction.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
213
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

uplo-devops

UPLO DevOps — 基础设施运维记忆

凌晨3点。PagerDuty正在疯狂告警。曾见过这种确切故障模式的值班工程师四个月前已经离职。运行手册存在于某处,可能在Confluence里,可能在GitHub仓库中,也可能在某人收藏的Notion页面里。UPLO DevOps通过将运行手册、事故后复盘、基础设施文档、CI/CD配置和架构决策记录索引到一个可搜索的单一层中,在你最需要的时候发挥作用,消除了这种慌乱。

会话开始

getidentitycontext

这将加载你的团队分配(平台、SRE、应用)、值班轮换状态和访问权限等级。某些生产配置和凭证文档受权限限制。

获取活跃指令——包括变更冻结窗口、事故指挥官指定和基础设施迁移截止日期:

get_directives

何时使用

  • - 你正在值班,某个你从未接触过的服务触发告警,你需要立即获取运行手册
  • 调查生产事故,需要查找这种故障模式是否以前发生过,包括根因和修复方案
  • 规划迁移,需要了解当前架构、依赖关系,以及与该受影响服务相关的最近三个ADR(架构决策记录)
  • 设置新的CI/CD流水线,想了解组织中类似服务如何配置其构建、测试和部署阶段
  • 准备事故后复盘,需要从多个数据源汇总时间线、受影响服务和爆炸半径
  • 新团队成员需要了解其服务领域的基础设施拓扑、部署流程和升级路径
  • 评估提议的基础设施变更是否与文档化的SLO或容量约束冲突

示例工作流

事故响应 — 新型故障模式

支付服务返回503错误。值班工程师之前没有处理过支付服务。

search_knowledge query=支付服务 503错误 运行手册 故障排除步骤

检查是否有类似症状的先前事故:

searchwithcontext query=支付服务 宕机 503 超时 数据库连接池 先前事故 根因

如果运行手册建议检查连接池但当前配置不明确:

search_knowledge query=支付服务 数据库连接池 配置 pgbouncer 设置 生产环境

解决后:

logconversation summary=已解决支付服务503宕机;根因是流量激增后pgbouncer的maxclientconn超出限制;匹配PIR-2024-087模式;将池大小增加到200 topics=[事故,支付,pgbouncer,连接池] toolsused=[searchknowledge,searchwith_context]

基础设施迁移规划

平台团队正在从自管理Kafka迁移到托管流服务。技术负责人需要评估爆炸半径。

searchwithcontext query=Kafka 消费者 生产者 服务 依赖 主题 配置

查找导致最初Kafka部署的ADR:

search_knowledge query=架构决策记录 ADR Kafka 事件流 选型 理由

检查当前SLO以及迁移是否可能违反它们:

search_knowledge query=事件流 SLO 延迟 吞吐量 要求 Kafka p99

exportorgcontext

DevOps关键工具

searchknowledge — 事故期间的首选工具。当你需要特定的运行手册、配置参考或已知流程时,这是最快的路径。凌晨3点,延迟至关重要。示例:searchknowledge query=redis集群 故障转移 运行手册 手动提升 步骤

searchwithcontext — 用于调查和规划。哪些服务依赖这个数据库?或这种故障以前发生过吗?需要遍历服务、事故和基础设施组件之间的关系。示例:searchwithcontext query=认证服务 依赖 上游 下游 数据库 缓存

get_directives — 变更冻结窗口、事故升级策略和迁移截止日期在此显示。在生产变更前检查可以防止职业生涯受限的错误。

flag_outdated — 基础设施文档比其他任何类型的文档腐烂得更快。上季度记录的Kubernetes集群版本是错误的。网络图显示了一个已退役的负载均衡器。运行手册引用了一个已被替换的CLI工具。积极标记这些——有人在事故期间会用到它们。

reportknowledgegap — 当某个服务没有运行手册、没有架构图或没有记录的所有者时,这就是运营风险。报告缺口会为平台团队创建一个可追踪的项目。

提示

  • - 服务名称是最可靠的搜索键。使用部署清单中的确切服务标识符(payments-api、auth-service-v2、order-processor),而不是随意描述。
  • 事故后复盘是知识库中最有价值的文档。编写PIR时,包含结构化字段:受影响服务、持续时间、爆炸半径、根因类别和行动项。这些字段由提取引擎索引。
  • 值班时,首先使用searchknowledge查找运行手册。仅当运行手册不存在或故障模式是新型时才升级到searchwithcontext。事故期间速度至关重要。
  • 每次事故调查后都要使用logconversation,即使是误报。误报模式本身就是监控团队应调查的信号。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 uplo-devops-1776214802 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 uplo-devops-1776214802 技能

通过命令行安装

skillhub install uplo-devops-1776214802

下载

⬇ 下载 uplo-devops v1.0.0(免费)

文件大小: 6.08 KB | 发布时间: 2026-4-17 16:26

v1.0.0 最新 2026-4-17 16:26
uplo-devops 1.0.0

- Initial release of uplo-devops: AI-powered DevOps knowledge management.
- Search across runbooks, infrastructure docs, CI/CD setup, and incident response procedures with structured extraction.
- Key tools include: search_knowledge, search_with_context, get_directives, flag_outdated, and report_knowledge_gap.
- Designed for rapid incident response, migration planning, and operational knowledge sharing.
- Includes best practices and example workflows for common DevOps scenarios.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部