返回顶部
m

monitoring-dashboard-audit监控仪表审计

>-

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
139
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

monitoring-dashboard-audit

监控仪表盘审计

对网络运维的监控基础设施进行结构化评估。
评估Grafana仪表盘、PromQL查询效率、告警规则
配置、SLA/SLO报告准确性以及Prometheus数据源
健康状态。此技能读取监控配置和指标——它不会
创建、修改或删除仪表盘、告警或数据源。

参考references/cli-reference.md获取按审计步骤组织的Grafana和Prometheus API
命令,以及references/query-reference.md获取涵盖网络接口利用率、错误率、BGP
对等体状态和SNMP派生指标评估的PromQL模式。

使用时机

  • - 监控缺口评估——验证所有关键网络基础设施是否具有仪表盘覆盖和活跃告警
  • 仪表盘质量审查——评估现有Grafana仪表盘是否为运维团队提供准确、可操作的数据
  • 告警疲劳调查——当团队报告过多或无关的告警通知掩盖真实事件时进行审计
  • SLA/SLO合规审查——验证错误预算计算和可用性指标是否反映实际服务交付
  • 迁移前监控就绪确认——确认监控能够应对基础设施变更(新设备、拓扑变化、平台迁移)
  • 事件后审查——评估监控是否检测到事件、告警触发的速度以及哪些缺口导致了静默故障

前提条件

  • - Grafana访问权限——至少具有查看者角色的API令牌或服务账户(确认grafanaurl和Authorization: Bearer 标头正常工作)
  • Prometheus访问权限——可通过prometheusurl/api/v1/status/config访问HTTP API(默认无需认证,或已配置适当的认证标头)
  • 网络范围已定义——设备清单、子网范围和关键服务列表可用于覆盖缺口分析
  • 基线文档——现有的SLA/SLO目标、预期告警阈值和运维手册可供比较
  • 时间戳意识——确认监控堆栈中的NTP同步;Prometheus抓取时间戳和Grafana时间范围选择依赖于一致的时钟

流程

按顺序执行以下六个步骤。每个步骤产生的结果将
输入到第6步的监控覆盖评分卡和优化建议中。

第1步:仪表盘清单

列举所有Grafana仪表盘以确定监控覆盖
范围,并识别覆盖缺口、过时仪表盘和组织
性问题。

查询Grafana API以列出所有仪表盘及其元数据:

GET /api/search?type=dash-db&limit=5000

对于每个仪表盘,记录:uid、标题、文件夹、标签和最后更新
时间戳。将超过180天未更新的仪表盘标记为过时
候选——这些可能引用了已弃用的指标或已退役的
基础设施。

检查文件夹组织。根级别包含50个以上仪表盘的扁平
文件夹结构表明存在组织性债务。检查命名约定
遵循情况——没有一致前缀或标签的仪表盘会降低
事件期间的可发现性。

检索每个仪表盘的完整JSON模型:

GET /api/dashboards/uid/

记录面板数量、数据源引用和模板变量。
标记具有硬编码时间范围(无相对时间选择器)的仪表盘
以及引用不存在数据源的面板——这些会产生空
面板,削弱操作员的信任。

构建覆盖矩阵:将仪表盘面板映射到基础设施
清单。清单中存在但任何仪表盘都未覆盖的设备、
接口或服务代表监控盲点。

第2步:面板和查询分析

评估所有仪表盘中PromQL查询效率、面板阈值配置
和可视化适当性。

从仪表盘面板JSON目标中提取所有PromQL表达式。
对于每个查询,评估:

rate函数使用——rate()需要一个至少为
两个抓取间隔宽度的范围向量。在显示长时间范围趋势的
仪表盘面板中替换irate()——irate()仅使用最后
两个数据点,仅适用于波动性大、短窗口的显示。

记录规则候选——跨多个仪表盘重复的复杂查询
(3个以上面板中出现相同表达式)应成为记录
规则。通过对归一化的PromQL表达式进行哈希来识别这些。
常见候选:接口利用率计算、错误率
比率和聚合的可用性指标。

标签基数——在没有显式过滤的情况下聚合高基数
标签的查询会产生昂贵的计算。
标记在高基数指标上没有标签匹配器的查询以及
使用{name=~.*}模式的查询。

面板阈值——验证仪表盘和统计面板是否配置了阈值
值。显示利用率或错误率但没有颜色编码阈值的面板
无法提供一目了然的严重程度。将配置的阈值与
运维标准进行比较(例如,接口利用率警告70%,严重90%)。

可视化适当性——仪表盘面板上的时间序列数据
丢失了时间上下文。波动性指标的单一值统计
会误导操作员。包含100行以上且未排序的表格面板
在事件期间无法使用。

第3步:告警规则验证

评估告警规则配置的检测覆盖范围、阈值
准确性和通知可靠性。

从Grafana告警API检索所有告警规则:

GET /api/v1/provisioning/alert-rules

对于Prometheus原生告警,还需查询:

GET /api/v1/rules?type=alert

对于每个告警规则,评估:

阈值适当性——告警阈值应与运营影响对齐,
而不是任意百分比。10Gbps链路上50%的接口利用率
告警为时过早;100Mbps WAN链路上95%的告警则为时已晚。
将阈值与链路容量和Prometheus的历史峰值使用量
进行交叉参考。

评估间隔——每5分钟评估一次的告警规则
无法检测到分钟级内的中断。对于关键基础设施(WAN
链路、核心路由器),评估间隔应等于或小于
Prometheus抓取间隔。标记评估间隔超过底层指标
抓取间隔的告警组。

等待和for持续时间——for: 0s的告警会在瞬态尖峰时触发
并导致告警疲劳。关键基础设施上的for: 30m
意味着30分钟的无通知中断。建议
范围:关键告警for: 2m-5m,警告告警for: 5m-15m。

通知渠道——验证所有告警规则至少有一个
活跃的通知渠道。检查渠道健康状态——Slack webhook
返回200,PagerDuty密钥有效,电子邮件SMTP可达。

路由和静默——审查Alertmanager路由树中
将所有告警转储到单个渠道的捕获所有路由。验证
静默具有过期时间。没有过期时间的活跃静默
会无限期掩盖持续问题。

升级完整性——关键告警应在确认超时后
从Slack/电子邮件升级到PagerDuty/电话。仅具有Slack通知的
关键严重性故障告警规则缺乏升级深度。

第4步:SLA/SLO报告

验证SLA/SLO仪表盘和计算是否反映实际
服务交付准确性。

错误预算计算——验证公式:
errorbudgetremaining = 1 - (actualerrors / allowederrors)。
常见错误:使用错误的时间窗口(日历月 vs
滚动30天),从停机时间计算中排除计划维护,
或者在服务跨越多个组件时从单个数据源
计算可用性。

可用性SLI——检查正常运行时间百分比、MTTR(平均
修复时间)和MTBF(平均故障间隔时间)是否使用正确的
输入。正常运行时间应引用基于探测的测量(blackbox
导出器、合成检查),而不仅仅是设备报告的状态。
排除检测时间的MTTR低估了实际恢复持续时间。

燃烧率告警——多窗口燃烧率告警在错误预算消耗
加速时提供早期警告。验证燃烧率告警
至少使用两个窗口(例如,1小时和6小时)。单
窗口告警要么触发太晚,要么太频繁。检查
严重程度是否映射到预算消耗:1小时内14.4倍的燃烧率
需要页面级别的严重程度。

多窗口告警模式——确认长窗口告警(6小时、3天)
用于趋势检测,短窗口告警(5分钟、1小时)用于快速
响应。验证严重程度随燃烧率幅度增加。

第5步:数据源健康

评估Prometheus抓取目标状态、指标基数、保留
配置和远程写入健康状态。

抓取目标状态——查询目标API:

GET /api/v1/targets?state=active

检查所有抓取目标的up指标。up == 0的
目标正在失败抓取——调查网络可达性、
导出器健康或认证问题。scrapedurationseconds
超过抓取间隔的目标正在超时,
在指标中产生间隙,并可能触发虚假告警。

基数评估——查询TSDB状态:

GET /api/v1/status/tsdb

按序列计数识别前10个指标。网络环境
中常见大型机箱设备上每个接口的SNMP指标
导致的基数爆炸。每个名称超过10,000个活跃序列的
指标需要调查标签优化或聚合。

保留和存储——验证保留期覆盖最

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 monitoring-dashboard-audit-1775901970 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 monitoring-dashboard-audit-1775901970 技能

通过命令行安装

skillhub install monitoring-dashboard-audit-1775901970

下载

⬇ 下载 monitoring-dashboard-audit v1.0.0(免费)

文件大小: 12.22 KB | 发布时间: 2026-4-12 10:38

v1.0.0 最新 2026-4-12 10:38
Initial release providing comprehensive audit of monitoring dashboards and infrastructure.

- Assesses Grafana dashboard inventory for staleness, organization, and coverage gaps.
- Analyzes PromQL queries for efficiency, label cardinality, and optimal usage of recording rules.
- Reviews alert rule coverage, threshold accuracy, evaluation intervals, and notification channel health.
- Validates SLA/SLO reporting, including error budget calculation accuracy and alignment with service documentation.
- Checks Prometheus data source health and alignment with network operations coverage requirements.
- Does not modify or create dashboards, alerts, or data sources—read-only assessment only.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部